熟练掌握python scrapy爬虫框架,celery任务队列,mysql, mongodb数据库,熟悉各种反爬虫策略,会用cookie池,代理IP池,精通浏览器爬虫开发技术(selenium+chrome driver),有大规模分布式爬虫+任务队列部署经验。
1、新浪微博100万条评论爬取,3天完成所有爬取数据及插入MYSQL数据库。
2、CDA高校大数据实验室,数据采集模块开发(Scrapy + Django),实时爬取电商平台、社交平台数据,秒级返回千条数据。
3、携程酒店房型爬取,10台服务器24小时不间断爬取房型信息,Celery任务队列实时更新MYSQL数据库,并用Superset开发dashboard查看爬虫服务器实时状态。实现4小时更新16W重点城市房型,8小时更新50W重点城市房型,20小时更新120W其他城市房型数据。