1. 2年以上Python开发经验,熟悉windows,linux开发环境,有大型C2C,B2C电商网站爬虫实践经验;
2. 熟悉多线程网页抓取原理及技术,熟悉基于Cookie的网站登录原理,精通正则表达式,能给从xpath/css等网页信息抽取技术;
3. 具备信息检索,自然语言处理,web挖掘等搜索引擎相关知识,有从事海量网络爬虫,网页去重,网页信息抽取的开发经验;
4. 有一定的架构设计能力,有很强的的分析,解决问题的能力;
5. 能够熟练的使用scrapy框架及scrapy-redis分布式框架进行开发工作;
6. 熟悉Re,Xpath,Json用法,能够使用Selenium + PhantomJs实现动态请求分析抓取;
7. 熟练使用MySQL数据库,熟悉Redis,MongoDB等NoSQL数据库 ;
8. 熟悉爬虫过程,掌握使用Requests包爬虫技术;
-1
1.实现多线程分布式抓取京东/天猫/淘宝/小米有品/网易严选等大型电商平的商品数据;
2.个别平台针对性的使用selenium抓取数据;
3.保存所有单品历史价格存入历史价格表,提供价格曲线图的数据来源;
4.京东每条单品调用开普勒接口实现转链,淘宝转链使用多线程配合队列从数据库拿出商品id
实现转链;
5.协助后台分析并解决数据调用的bug,不定期走查数据
6.针对每个平台设置合理的数据量底值,数据量过低则发邮件报警
-2
2.通过抓包,构造post请求破解优惠券有效期以及推广链接的反爬;
3.进入淘宝联盟抓取商品推广所有分类所有包含优惠券的单品数据全部字段;
4.淘宝通过ip以及翻页速度进行反爬,通过代理或者控制翻页速度解决反爬;
-3
1.完成当当,国美,网易考拉,顺电,唯品会,新蛋,1号店,移动,联通,电信,苏宁,亚马逊,京东,天猫
以及手机官网等十几个平台自营店铺指定热门机型的全部数据抓取
2.合理建立数据库设置字段类型,每天定时爬取十几个平台手机数据给后台展示,并保留历史
价格数据,预备价格趋势分析的数据源
3.设置预警,如果平台页面发生变化,及时维护优化更新爬虫代码保证每天数据的准确性
具有大型商城数据采集经验, 及破解验证码登录,