精通Python 开发语言,拥有多年的一线开发经验
了解主流的 WEB 服务器,对于 Nginx、Apache 的配置、优化、机制、维护有一定的经验
了解 Mysql 服务的使用,对于 Mysql 的优化、业务设计、集群配置、运维有多年的实践
具备 Shell 编程能力,了解 CentOS、Ubuntu 操作系统,会基本的 Linux 操作和管理 。
主要使用 Flask、Codeigniter、CakePHP 等语言开发框架。
熟练使用 Redis、Memcached、MongoDB 等数据库。
项目一介绍:智能数据分析平台
开发一个软件质量评测项目,项目属于web项目,主要负责后台方法编写、部署,前端略有参与,项目分多个阶段,着重介绍2个阶段:
第一阶段:(着重后端方法编写)
缺陷自动分类功能实现,根据缺陷(bug)的标题、描述等相关特征信息,对缺陷严重程度等级(1-6)级进行分类,用到相关技术:
1、常用的建模/数据分析方法编写,处理缺失值、数据离散化、归一化、one-hot编码、字符串索引、降维、算法模型构建/模型保存与加载等常用功能编写通用方法,直接调用
2、结巴分词对描述信息文本分词,并去除停用词、构造自定义词典处理数据
3、 运用pandas对数据进行处理,缺失值、异常值、重复数据处理、特征向量化等
第二阶段:(前后端配合)
该阶段是本项目重点阶段,采用django搭建后台,前端通过拖拽数据处理功能的操作,将数据/数据处理流程/建模方法等数据传到后端,后端根据传过来的参数,结合第一阶段编写好的方法对数据进行处理建模,并将结果返回前端进行相关图表展示,前端框架涉及jsplumb(流程图)、datatable.js(表格)、echarts.js(图表)、d3.js(架构图),后端相关技术主要有django框架、Pandas、numpy、sklearn常见数据处理与分析库
第三阶段:(仿真测试缺陷预测)
根据公司内部测试数据,研究性预测每个项目仿真测试缺陷数,数据特征比较多,挑选了一些影响关系大的因子,开发人员经验、开发时间、项目类别等,并对离散型特征通过one-hot和分箱转化成数值参与模型运算,在建模过程中,考虑到不同特征下预测结果不一样,编写随机算法选择特征与手动选择特征进行结果比较,也通过在相同特征下选择不同的算法模型进行预测,得出结果进行比较,这样充分考虑各种情况,得出一份更具有参考性的结果
职责:
1、独立配服务器环境,Django+Linux+Uwsgi+Nginx部署项目,实现访问
2、前后端代码编写(后端数据处理、数据交互、前端页面)
3、数据爬取,缺陷数据有限,部分数据来源于网上爬取,用于建模测试
4、数据库用到MySQL、Oracle
5、预测软件可靠性,运用G-O、G-M模型等,建立软件缺陷与时间关系模型方程
6、研究NLP中一些相似度算法
项目二介绍:爬虫与数据分析项目
1、根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段,通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取
3、对爬取到的数据,通过matplotlib生成直方图、条形图、散点图、饼图、词云等,多维度展示分析数据,并撰写数据分析报告,供需求方对数据有直观的了解
职责:python工程师
编写爬虫程序,想出反反爬策略,数据清洗可视化
项目概况:
5、对爬取到的数据,通过matplotlib生成直方图、条形图、散点图、饼图、词云等,多维度展示分析数据,并撰写数据分析报告,供需求方对数据有直观的了解
独立完成网站数据爬取,和常见数据处理方式