精通Python爬虫,熟悉正则表达式、xpath提取页面元素(或者bs4、pyquery)、爬虫库requests、框架scrapy、selenium、能处理简单验证码、js逆向、解决常见表单加密、cookie加密等,能根据需求,处理常见的反爬,抓取数据
Python爬虫伪装中代理IP、UserAgent的熟练使用
Python与scrapyt-redis分布式爬虫的基本使用
Python操作Mysql数据库增删改查
Python爬虫多线程、异步协程操作
爬取网易云音乐评论、歌曲、基于Selenium的12306自动刷票软件、基于Scrapy爬取伯乐在线网站存入mysql数据库、基于GradientBoosting模型的厦门市房价预测系统、爬取酷狗音乐、爬取腾讯视频、爬取拉勾网、爬取笔趣阁所有小说
通过DOM断点破解网易云音乐表单数据params、encSecKey加密,利用execjs与python交互解决表单加密
爬取www.89ip.cn网址建立自己的代理ip池,并且过滤无效ip,将有效ip存入txt文件中,。
通过对页面分析,总结页面为动态数据,分析数据接口编写爬虫代码,进行多线程池创建爬取笔趣阁所有小说。。