1.熟悉HTTP/HTTPS协议,TCP/IP网络协议
2.熟悉Python 多线程爬虫及其机制
3.熟练使用Python urllib、urllib2、requests等网络模块
4.熟练使用Python lxml、BeautifulSoup、re、json模块进行数据提取
5.熟悉XPath语法规则和各CSS Selector的使用
6.了解Tesseract机器图像识别系统,并处理简单的文字验证码
7.熟练使用Selenium+PhantomJS实施动态HTML抓取
8.熟练掌握Scrapy框架,以及编写各类中间件
9.熟练掌握scrapy-redis分布式框架,了解各组件工作机制
爬虫与数据分析项目
1、根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段,通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取
2、对抓取到的数据进行清洗过滤,结构化存到数据库,根据爬取过程中遇到的一些反爬手段,优化自己的程序
3、对爬取到的数据,通过matplotlib生成直方图、条形图、散点图、饼图、词云等,多维度展示分析数据,并撰写数据分析报告,供需求方对数据有直观的了解