熟悉python爬虫,熟悉requests/httpx/xpath/re等常用库,熟悉常见的反爬如ua,js反爬,动态字体反爬等,熟悉使用selenium自动化爬虫的使用,了解app数据的采集和反爬原理,如ssl spinning等。
在大学实验室参加过“数据江山”的对国家数据的采集项目,自己也独立写过爬某站,某讯视频,某酷视频,12306的自动登录,某眼电影的动态字体反爬,某度翻译、某道翻译的js反爬等。
该作品是为了绕过12306的图像点击和滑动模块的验证来实现12306的自动登录。自动动登录之后来达到抢票的效果。
某眼电影网站存在自定义的woff文件,也就是自定义字体,关键信息使用了这种自定义字体,并且这种woff文件每刷新一次就会更新一次,使用机器学习的knn算法来破解这字体反爬来达到数据爬取的目的。