python爬虫,数据抽取及清洗,主要可以负责网页数据的定向爬取,获取相应的数据,并进行整理.精通爬虫框架scrapy.及爬虫技术urllib/selenium,精通各种网页源代码解析工具,如正则/Beautifulsoup/xpath.
爬虫项目:
爬取淘宝网
软件环境:Python + Scrapy硬件环境:
项目描述:团队项目。淘宝网的数据可以反应用户更青睐哪种商品。对这些数据进行分析,能够让公司有针对性的进行制作合理方案,掌握最新的市场动向,把握先机,并且能够合理化的安排项目策划的进度。
技术描述:1. 主要使用scrapy框架进行抓取,在中间键里写了代理、header等,防止爬虫中断,由于部分网页采取了动态网页js加载,因此采用了Selenium进行了对动态html的处理。
2.根据网页数据在items.py中建模
3.定义爬虫行为,编写对应spider文件
4.利用xpath对数据进行抽取
5.编写中间件模拟客户端访问,编写User-Agent从中随机抽取用户头。
6.运用第三方ip代理池,防止ip被封获取不到数据,影响效率。
7.打开管道,编写pipelines文件。
爬取天猫网
软件环境:Python + Scrapy硬件环境:
项目描述:团队项目。天猫网的数据可以反应用户更青睐哪种商品。对商品的优惠券进行爬取,展示在微信公众号上面,让用户使用优惠价格进行购买.
技术描述:1. 主要使用scrapy框架进行抓取,在中间键里写了代理、header、cookie等,防止爬虫中断,由于部分网页采取了动态网页js加载,因此采用了Selenium进行了对动态html的处理。
2.根据网页数据在items.py中建模
3.定义爬虫行为,编写对应spider文件
4.利用re对数据进行抽取
5.编写中间件模拟客户端访问,编写User-Agent从中随机抽取用户头。
6.运用第三方ip代理池,防止ip被封获取不到数据,影响效率。
7.打开管道,编写pipelines文件。
8.编写邮件提示代码,让机器对异常错误进行邮件远程提醒.
9.对淘口令进行公众号和天猫网之间的商品购买.