熟练使用python爬虫能使用request,xpath,re 等 多相关技术
熟悉使用mysql ,ip代理 ,scrapy框架,数据分析等相关应用
可使用多线程加快进度 ,熟悉使用反爬机制,处理一点简单问题。
项目一介绍:智能数据分析平台开发一个软件质量评测项目,项目属于项目,主要负责后台方法编写、部署,前端略有参与,项目分多个阶段,着重介绍2个阶段:第一阶段:(着重后端方法编写)缺陷自动分类功能实现,根据缺陷(bug)的标题、描述等相关特征信息,对缺陷严重程度等级(1-6)级进行分类,用到相关技术:1、常用的建模/数据分析方法编写,处理缺失值、数据离散化、归一化、one-hot编码、字符串索引、降维、算法模型构建/模型保存与加载等常用功能编写通用方法,直接调用 2、结巴分词对描述信息文本分词,并去除停用词、构造自定义词典处理数据3、 运用pandas对数据进行处理,缺失值、异常值、重复数据处理、特征向量化等 4、通过TF-IDF将数据向量化,在建模阶段对数据进行28比例切分,最后通过Sklearn SVM/朴素贝叶斯/决策树构造模型。