1.熟练掌握python开发。
2.熟练掌握各种反反爬技术。
3.熟练掌握html,css,js等前端技术。
4.熟练掌握正则,xpath完成数据提取清洗。
5.熟练掌握多线程多进程协程技术。
6.熟练linux编程。
7.熟练掌握破解javascript混淆加密技术。
8.熟练使用油猴完成关键加密参数的hook。
9.熟练mysql数据库的增删改查功能。
最近的项目多为js解密。
淘宝电商爬虫:
1.负责登录模块的工作,包括维持会话,javascript解密passwd2参数。
2. Nodejs搭建本地API,动态获取cookie以及_csrf_token等加密参数。
3. 爬取并结构化订单信息。
4. 爬取订单的物流信息并结构化到订单信息中。
5. 封装爬虫程序,使用Flask提供调用接口。
今日头条_sig参数破解:
1.负责头条_signature参数的破解。
2. 维持好会话,海量爬取数据,并将数据清洗结构化存放到数据库。