熟练掌握urllib、requsets、Fiddler工具、selenium、chromedriver工具、
熟练掌握re、Xpath、beautifulsoup、页面解析库
掌握验证码识别技术
熟练掌握字体反爬、CSS反爬技术
熟练掌握ip池、cookie池的搭建
熟练掌握scrapy框架,scrapy-redis分布式断点续爬技术
熟练掌握html,JavaScript语言、以及JQuery
熟练掌握MySql、MongoDB、Redis数据库
熟练掌握网络编程、进程线程、协程等知识
熟悉了解numpy库,能绘制简单的数据分析图
熟练windows/Linux开发环境;
熟练掌握python语言基础,面向对象编程思维
熟练掌握Flask、Django服务器框架
项目一:大众点评爬取系统
项目环境:windows10+python3.5+pycharm
项目描述: 抓取指定商家的名称、店铺星际、评论数、人均消费价格、店铺地址
项目难点:css字体加密反爬、且不定时切换两套不同的反爬机制
项目开发过程:
反爬种类一: svg字体反爬
解决过程:抓取css文件中的svg文件,解析svg文件,根据x,y偏移量可计算出文字在SVG源文件的索引值,再生成映射关系字典,替换被修改的字体。
反爬种类二: woff字体反爬
解决过程:抓取css文件中的woff文件,用FFfont库以及第三方图片识别接口解析woff文件,生成文字映射关系字典,再做替换。
项目二:微信公众号爬取系统
项目环境:windows10+python3.5+pycharm+fiddler
项目描述: 爬取指定微信公众号的所有的文章以及对应的评论、阅读量、点赞量
项目难点:抓包寻找每个公众号以及每篇文章的标识符,cookie的时效性,以及访问评率限制
项目开发过程
1.通过抓包发现,请求头中的biz、appmsg_token参数是每个公众号的标识符
2. 通过抓包发现,请求头中的mid、idx参数分每篇文章的标识符
3. 分析返回json数据的结构,提取响应的信息
项目三:抖音小视频爬取系统
项目环境:windows10+python3.5+pycharm+fiddler
项目描述: 爬取指定用户发布的所有视频
项目难点:抓包、寻找视频的下载url、以及关键参数
项目开发过程
用fiddler工具抓包,先寻找下载视频的url,再寻找某个用户名下所有的小视频的id号,将
1. 通过抓包分析,爬取文本信息不难,难点是找视频下载地址
2. 在返回的json数据中发现下载视频的url其实在分析连接里面
3. 找到视频下载url后,根据视频的id编号发送请求即可完成爬取。