1、了解基于Json、Re、Xpath、CSS、BeautifulSoup4及selenium等网页信息抽取技术,从结构化和非结构化数据中获取信息。
2、掌握requests爬虫模块,熟悉多线程爬取;熟悉Scrapy爬虫框架,掌握其各组件工作机制以及Python多线程爬虫及其机制。
3、扎实的python基础,娴熟的运用linux开发环境,良好的编程习惯,对代码质量和编程规范有较高追求,熟悉掌握svn版本管理工具。
4、掌握MySQL以及Redis进行数据存储与读取。能孰练编写SQL语句,使用Scrapy_Redis爬虫框架实现分布式爬虫,针对特定网站信息进行采集并完成数据的存取。
5、深入理解网络通信原理,熟悉HTTP、TCP/IP协议,熟悉Django开发框架,JS,HTML,CSS 等前端开发,并有实际开发经验。
1、爬取今日头条 2019.05-2019.04
项目描述:该项目主要对今日头条的文章进行抓取,抓取的条件为公司指定的条件:作者+文章内容+关注数+阅读量+粉丝数等。
个人职责:通过伪装浏览器及添加代理IP处理反爬机制,获取页面信息,然后通过xpath/re等方法提取页面信息,最后根据公司要求,保存到mysql数据库中,或者生成文本等方法保存,方便使用。
2、爬取搞笑妹子APP 2019.04-2019.03
项目描述:该项目主要是对搞笑段子的图文进行抓取,抓取的条件为公司指定的条件:作者+图片+标题。
个人职责:通过fiddler截获http的数据,分析数据找出我们想要获取的数据的接口。用bs4、xpath/re等方法提取页面信息,最后根据要求,保存到mysql数据库中。
3、爬取爆笑一刻、福莱岛、新浪微博等搞笑网站2019.01-2018.12
项目描述:该项目主要是对搞笑网站的爬取,抓取条件为公司指定的条件:1、搞笑图文,2、作者+图片+标题
个人职责:使用Scrapy框架对网站的数据进行采集,通过伪装浏览器及添加代理IP处理应对反爬机制获取页面的信息,然后通过使用Xpath/re等方法提取商品的信息,使用sha1加密的方法将数据存入redis中实现数据和url去重,最后根据需要保存到mysql 数据库中。