1. 熟练掌握html/css/xpath/ajax/xml等技术,熟悉HTTP传输协议,精通网页抓取原理和整合技术,熟悉正则表达式;
2. 了解各种加密算法,在破解验证码方面有丰富经验,能够独立解决js反爬和模拟登陆问题;
3. 熟练掌握正则表达式、XPath、CSS等网页信息抽取技术;
4. 熟悉常见反爬机制,验证码识别,IP代理池、应用Ip池、headers认证和cookie等;
5. 熟练掌握应用Selenium、PhantomJS、Splash、Puppeteer实施动态抓取;
6. 熟悉熟练使用charles、fiddler等抓包工具;
7. 熟悉数据清洗,能够用numpy、pandas、jieba、mysql、mongodb、redis等工具对数据进行处理;
8. 熟悉各种Liunx服务器中间件和应用的部署以及虚拟化环境部署配置和运维;
9. 熟练JS逆向,有逆向工程分析思想认识,熟悉大多反扒机制的工作原理,及逆向基本流程;
10. 深信服虚拟化认证工程师、网络信息安全职业资格认证;
1.某查查的数据采集以及签名参数的逆向分析;
2.某某直聘的cookies参数的逆向分析与数据采集;
3.某知名不动产交易平台js逆向登陆;
4.某主流职业资讯平台webpack逆向加解密分析;
5.某大型创投资讯平台请求参数逆向分析模拟请求;
6.各种sign签名参数的逆向分析处理等等。
本案例采用Webpack技术。通过逆向分析目标站点的前端资源,获取其中的JavaScript代码,并使用Webpack打包,以达到采集目的。此方法可规避反爬虫机制和动态资源加载等问题,提高采集效率和准确性。同时,对于前端开发人员而言,也可作为一种学习Webpack的实际案例。
某壁纸网站禁止用户批量下载其高清壁纸,但我们可以通过混淆逆向技术来实现批量下载。首先,我们需要了解网站的反爬虫机制,通过模拟用户访问、分析网页源代码等方法,找到反爬虫的JS代码,逆向分析出其算法,从而破解反爬虫机制。然后,我们可以通过Python脚本编写爬虫程序,从网站上自动获取