python网页爬虫,京东淘宝商品数据,小说数据采集,评论数据采集等,可以做逆向分析,字体反爬破解,反调试破解,会使用playwright框架,request,scrapy框架,app实现非加密数据的采集。
58同城指定二手车数据采集,淘宝指定商品数据采集,上证A股股票数据采集,小说网站数据采集,快手博主视频批量采集,酷狗原创音乐采集
原创音乐的爬取,使用了js逆向破解的技术,通过对js加密参数的分析,实现了生成请求头中需要的js加密参数 58二手车的数据爬取,采用了字体反爬破解的技术,同时用2020年新出的playwright框架对浏览器页面进行操作,实现了request无法实现的操作,比如对页面进行点击操
作品中采用了多进程的处理方式,在网站未设置限制ip,弹验证码的反爬机制下,可以运用多线程的方法快速爬取所需内容,提高数据采集的效率