对人人网、百合网、世纪佳缘、微博等社交类网站的用户数据进行采集,主要使用的是requests并结合多线程进行爬取,数据量累计约6000万。 技术描述:1.通过一个用户的数据,获取与之相关联的其他用户的数据; 2.通过UA池,模拟成不同的浏览器,获取用户数据,通过封装IP代理池并维护,在出现IP封禁的情况下使用可用IP进行爬取; 3.在出现强制输入验证码的反爬时,常通过打码平台(超级鹰)进行破解; 4.爬取到的数据存储在MySQL中。...
对智联、58、51、大街网、万行教师、中国商标网、BOSS直聘、招聘狗等各大招聘网站和企业数据网站进行个人简历与企业数据的爬取,爬取数据量约14亿,并对部分数据做清洗,生成报表。 技术描述:1.使用Scrapy框架进行数据的爬取; 2.参与分布式爬虫框架设计,搭建Scrapy_Redis提高爬取的效率; 3.对部分网站仍采用了Requests进行爬取,后基于aiohttp做了异步爬虫框架的封装,提高爬取效率; 4.中国商标网企业数据爬取遇到JS加密的反爬,通过不断分析网站,以数据为导向,最终找到绕过JS加密反爬手段的接口,获取到需要的数据; 5.大街网会动态更换登录的cookie信息...