本人多年从事数据采集相关工作,具备以下技术能力:
1、掌握多线程并发编程核心原理,具备开发高性能高并发程序能力;
2、掌握主流爬取技术及爬虫框架工具,如Selenium/Puppeteer/Scrapy/PhantomJS等;
3、掌握反爬虫突破原理,如封账号、封IP采集等问题,解决网页抓取、信息抽取等问题;
4、掌握html,xpath、正则等解析器,具备处理页面结构化和非结构化抽取技术;
5、掌握JavaScript反爬特征,具备突破JavaScript算法和高度混淆能力;
6、掌握瑞数、加速乐、极验、易盾等风控产品处理;
7、掌握千万数据采集架构设计与项目实战经验;
一、某医疗平台数据采集
项目简介:基于某医疗平台网站,获取全国定点医疗机构名称、类型、等级及地址;
实现内容:
1、模拟用户发送数据请求,破解请求头、参数、返回值中签名验证反爬部分,并获取数据;
2、数据存储在redis及mongo中;
3、定期更新;
二、某投资社区网站热帖数据采集
项目简介:自动获取某投资社区网站中,帖子的数据,并进行定期更新;
实现内容:
1、模拟用户发送数据请求,破解Cookie中请求参数加密,并获取数据;
2、数据存储在mysql数据库中;
3、定时更新;
在本项目中,负责分布式⽹络爬⾍系统的架构设计与开发、海量数据的爬取、清洗、解析、⼊库、破解各类反爬机制、提升数据抓取系统的⾃动化⽔平。上述作品中只有核心cookie信息的破解。
负责分布式⽹络爬⾍系统的架构设计与开发、海量数据的爬取、清洗、解析、⼊库、破解各类反爬机制、提升数据抓取系统的⾃动化⽔平。在作品中,仅展示了自动化采集过程中,用户密码逆向的部分内容。