1.熟练使用正则表达式和Xpath及Scrapy框架数据爬虫。
2.熟悉JavaScript,Web,C,C++等语言。
3.熟悉禅道等工具对BUG跟踪以及版本管理工具SVN的使用。
4.熟悉Python语言,并能够独立使用Python+requests+ddt+unittest+Runner完成接口自动化测试工作;
5.熟悉jenkins使用,能够与自动化测试集成;
6.熟悉robotframewark框架,能够使用其完成接口框架自动化测试和Web自动化测试。熟悉Postrman,fiddle等工具。
2019/12-2021/09 华为科技 Python开发工程师
工作描述:
遇到问题及解决方案如下:1.爬取量较大,用scrapy-redis爬取,因为该框架实现url和数据去重,持久化和分布式比较方便.
2.采用隧道动态ip进行采集数据. 3.需要抓包并查找到对用的response。
4.数据保存在json字符串中,转化成python字符串提取数据.
5.保存数据到MongoDB。
6.使用loggon模块编写监控程序进行爬虫监控,并提供日期定向输出日志到log文件.
个人职责:编写爬虫程序,想出反反爬策略,数据清洗,分表存储,维护代理ip池.
2018/10-20-2019/11 北京中软国际信息技术有限公司 Pyhon 后端/爬虫工程师
工作描述:
期间主要负责Python后台的开发和爬虫方向的工作,期间参与过两个后台项目的开发和爬虫方向的工作.
Python 后台:项目一:基于Flask框架开发租书网移动端项目. 项目二:基于Django框架开发的生鲜商城项目
Python 爬虫: 项目一:使用scrapy-redis 分布式系统挖掘互联网房价的相关信息。 项目二:使用scrapy-redis爬取分布式系统爬取天猫,淘宝订单.
项目经历
一:爬虫项目
[项目描述]:责任描述:编写爬虫程序,想出反爬策略,数据清洗可视化.
项目概况:1.需要爬取的书经过分析,考虑到数据较多,采用scrapy-redis进行爬取,因为该框架实现url和数据去重.持久化
分布式比较方便,同时应用RedisSpider构建分布式爬虫爬取更快.2.数据提取,对提前中的异常情况充分考虑完善优化代码
增加代码强壮型. 3.考虑网站能否打开和打开时间问题,一般需要加异常判断,超时,retry等减少保持.
4.爬取的数据通过redis集合,sha1加密,等技术手段,实现新提取的数据保存,已爬过数据更新的短短续爬功能.
5.对爬取到的数据,通过matplotlib生成直方图,条形图,散点图,饼图,词云等,多维度展示分析数据,并撰写数据编写数据分析报告.
供需求方对数据有直观的了解.独立完成部署,数据爬取,清洗过滤,可视化.
二:交易项目
[项目描述]:该系统主要为房地产开发商进行项目备案,与购房者进行合同签订,以及住建局对合同进行审核的一系列流程,
最后将房产相关信息传入不动产交易系统中.
[负责模块]:负责房产开发商与购房者签订合同以及住房局合同审核的一系列流程的功能测试,接口测试,自动化测试.
[职责描述]:
1:搭建测试环境,根据需求,编写测试用例,执行测试以及对缺陷的跟踪;
2:按分离设计思想搭建自动化搭建自动化框架。使用pthon+PO+pytest+selenium
3:依功能测试用例设计自动化测试用例,评审用例,编写和调试自动化用例脚本.
4:与jenkins集成,定时执行自动化脚本并自动化通知相关人员测试结果,分析失败测试用例,反馈bug和优化脚本;
三:智能化数据分析项目
[项目描述]:智能数据分析项目项目环境:Linux+Uwsgi+Nginx+Django+Pandas+Sklearn 责任描述:
1项目前期后的框架选择,结构环境搭建方案评估.
2负责后台接口开发,后端数据处理方法编写
3开发环境,测试环境搭建与项目部署流程:前端:通过用户操作构建数据分析流程图,向后台传说数据/参数Django 后台:接受参数,根据参数调用算法对数据进行处理建模,
将结果返回前端展示算法模型:采用Pandas+Sklearn对数据分析处理分析建模,涉及特征工程字符串索引,数据分箱,one-hot编码,降维,NLP中文分词构建词向量,目标分类,模型保存与加载.
设计技术:Ajax,文件上传,数据处理与分析,中文分词,文本分类,TF-IDF,SVM,模型建模,数据交互等.
四电商项目
[项目描述]:项目环境:Linux+Uwsqi+Nginx+Django 责任描述:编写部分模块代码,偏重业逻辑 1.django-cekery实现异步,
耗时操作发邮件通过celery执行 2.前后端交互,数据库中关于商品信息字段的增删改查 3.redis缓存,对常浏览的商品存放redis