熟悉Python脚本语言的使用,Ajax和js标记语言原理,pyppeteer+pyquery抓取抽离原理,主要抓取js,MySQL SQLServer Oracle MongoDB Redis等数据库原理,多线程多进程爬虫开发原理,tesserocr识别验证码原理,反爬虫破解的各种手段,App WireShark Filddler Charles AnyProxy等抓包软件和Airtest自动化控制,Scrapy框架架构原理和使用,Scrapy-Splash,Scrapy-Redis,Docker容器,Scrapyd分布式爬虫部署,Scrapyd-Client,Scrapyd-API,Scrapyrt和Gerapy分布式爬虫系统管理库的使用。
1,抓取爱奇艺VIP视频 2019年08月04日 - 2019年08月08日
项目描述 爱奇艺的VIP视频只能会员能看,普通用户只能看前6分钟。我们免费看VIP视频可以通过旋风视频VIP解析网站。首先网站提供了在线解析视频的功能,没有下载接口,要利用网络爬虫来完成,然后使用Fiddler抓包软件出现网页执行了POST请求,在抓包过程中可以看到POST请求的参数和返回json格式的数据,得到视频的缓存地址然后开始写代码。
我的职责 用网络爬虫Fiddler抓包软件下载视频。用正则表达式匹配key,time,url等信息,根据匹配到的信息发POST请求,获得一个存放视频信息的url,根据url获得视频存放的地址根据最终视频地址下载视频。
2,制作网易云音乐下载器 2019年08月08日 - 2019年08月09日
项目描述 主要思路目的:制作简单的网易云音乐下载器。功能:根据提示输入歌曲名后下载该歌曲。下载的歌曲数量不大于9首。选取方式为搜索结果的前9首歌曲。若搜索结果不足9首则全部下载。具体思路详见源代码,要用到requests和pycrypto。
角色 | 职位 |
负责人 | 爬虫工程师 |
队员 | 后端工程师 |