selenium\pypeteer自动化技术 , 多任务异步请求并保存数据 , redis数据去重 , ip代理 , js逆向分析 , mongodb\mysql\excel , 瑞树5 , 对接打码平台过验证 , 模拟登录 , 批量注册 , scrapy , 分布式数据采集
抖音 , 小红书 , 快手 , 今日头条的视频,帖子,文章爬取 , 淘宝 , 美团外卖 , boss直聘等各大网站的评论信息,店铺商品等信息的抓取
通过抓包找到对应数据接口,发现数据被加密,通过js逆向找到解密函数所在js文件,该js文件被混淆,突破混淆找到相关解密函数,扣取该函数,使用请求库对接口访问,获取数据,调用扣取的函数进行解密,最后解析数据并保存
使用scrapy框架请求网页,利用xpath解析数据,获取想要的字段,并将数据保存至mongodb中
请求首页地址获取视频id,将id与资源地址结合,得到该视频的mpd文件,读取mpd文件中,使用正则获取其中的高分辨率的视频和音频地址,利用协程异步请求视频,最后通过系统指令合并切片文件得到完整音视频
翻页提取网站首页动态加载数据,获取文件id,文件地址为动态,通过分析得知其动态参数的产生,结合参数获取数据的二进制信息,保存为pdf文件