我是一名python中级爬虫工程师,目前是在职人员,会的技能有以下:1.能够解决常见的反爬问题,2.对js逆向有较多的经验,3.对于网页的验证码能够高概率的验证成功,4.能够熟练的解决登录问题,5.并配合mysql数据库进行数据的插入与清洗
1.中国烟草局:爬取过北京和山东的烟草局数据,其中遇到的反爬措施有登录问题,验证码问题,还通过扣js代码进行逆向生成请求参数,最终成功的拿到了登陆后的数据;
2.中国执行信息公开网:爬取中国执行信息公开网的执行人信息,终本信息,被执行人信息等板块,反爬措施有验证码识别,瑞数5代的反爬(通过扣取关键js代码进行破解,生成需要的参数);
3.其他较为简单的网站:简单的反爬措施,js代码扣取,构造请求参数中的加密函数,aes加密解密,cbc模式等常见的反爬措施。
1.中国烟草局:爬取过北京和山东的烟草局数据,其中遇到的反爬措施有登录问题,验证码问题,还通过扣js代码进行逆向生成请求参数,最终成功的拿到了登陆后的数据; 2.中国执行信息公开网:爬取中国执行信息公开网的执行人信息,终本信息,被执行人信息等板块,反爬措施有验证码识别,瑞数5代
1.中国烟草局:爬取过北京和山东的烟草局数据,其中遇到的反爬措施有登录问题,验证码问题,还通过扣js代码进行逆向生成请求参数,最终成功的拿到了登陆后的数据; 2.中国执行信息公开网:爬取中国执行信息公开网的执行人信息,终本信息,被执行人信息等板块,反爬措施有验证码识别,瑞数5代