1.有大型采集项目实战经历、可以独立完成整个采集项目的调度-采集-监控
2.有大公司工作经历
3.目前在职,技术能力强,业余时间充足
4.web端采集能力较强,js逆向能力强,如:瑞数加密,vmp还原等
5.验证码能力较强:简单汉数英识别,极验点字、九宫格、滑块,双滑块定位识别,旋转验证码等
6.可以自己搭建调度平台,对爬虫进行页面化调度,可以独立设计整个采集框架,有完善的补偿机制,可以对已部署爬虫项目进行页面化实时监控,方便对现有采集项目进行实时监控.
1.百望云税局所有省份自动化登录接口js逆向实现、验证码训练识别
2.天眼查极验验证码识别,采集框架搭建,自动配置化采集
3.中国执行公开网、专利等站点瑞数加密破解
4.国家认可认证监督管理委员会(认监委:http://cx.cnca.cn/CertECloud/result/skipResultList)站点点字、九宫格验证码训练识别,采集项目实现
由于所属行业为数据服务行业,故智能简单截图以验明真身和大概项目说明,不是同行不一定能看懂,以上3个作品截图:1.百望云工作截图,因实现功能为js接口逆向,属于技术端支持,此截图更具有说服力,目前北京薪资2.6k,公积金真实截图可验证工作经历
1.天眼查实际采集入库截图,河北重点企业各维度信息采集; 2.包括企业背景、法律诉讼、经营风险、经营状况等各个维度信息
1.jsvmp瑞数项目逆向代码还原,上图可表示已经可以正常获取cookie进行采集 2.可以保证多并发的情况下仍能稳定进行数据采集