1、精通python语言,有优良的编程风格和习惯。
2、精通网络爬虫技术,熟练掌握requests、BeautifulSoup、css选择器、xpath选择器、正则表达式。
3、熟练使用Scrapy爬虫框架、了解Scrapy框架运行原理。
4、熟练使用Charles抓包工具,能对APP端进行爬虫
5、熟练掌握常见反爬虫技术, 并能对相应的反爬虫做出解决方案。
6、了解验证码破解技术,能够解决常规的反爬验证码
7、掌握Selenium+phantomJs进行网页数据的采集。
8、熟练掌握MySql、mongodb·、redis数据库操作。
9、熟练运用numpy、pandas、matplotlib进行数据清洗、处理以及分析。
10、熟练使用Scrapy-Redis框架开发分布式爬虫
11、熟练使用linux常用命令以及在Linux系统中部署python环境。
12、了解HTML5、CSS3、JavaScript、jQuery、Ajax、json等前端开发技术。
13、了解Djang框架,可以使用Django进行web运维平台的开发。
携程网机票爬虫
(1) 项目描述:机票网站爬虫项目,本项目使用了scrapy以及selenium+phantomjs模拟浏览器行 为进行数据采集,主要获取航班号、起飞时间、到达时间、准点率、价格等数据
(2) 项目难点:网站使用了ajax加载数据,并加入验证Cookie,限制IP访问反爬手段,需要实时更新数据
(3) 难点解决:使用了selenium模拟浏览行为,ajax数据可以直接加载,故不用构造ajax请求。限制cookie可以直在spider中设置cookie,对于限制IP可以通过IP代理池来实现更换IP