熟悉掌握python的各种网络协议库,能够使用非结构化数据存储,掌握代理IP池、抓包、验证码的OCR处理等操作,来解决网站的反爬虫问题,知道HTTP、HTTPS代理IP的基本原理,了解透明、普匿、高匿代理的区别,知道如何在代码里使用。
曾经想爬过某个网站,需要网站js,本来是个很不起眼的小站,我当时是没钱开网易云音乐的会员,被迫爬虫解决,然后找了个18线盗版音乐mp4网站,这个小站有一个我从来没有见过的骚操作,使用chrome用户控制台无法调试,加了个断点之后,直接卡住,经过我仔细查看,是while true{ debugger;}这行代码,也就chrome加断点其实是在代码里加入了debugger这个他才能识别的关键字,然后网站拥有者写了一个while循环,你正常肯定是没问题的,你如果一断点,完蛋,无限断点卡爆了。一个while还是好的,最怕的就是代码还带一些混乱的混淆,什么__0xa3e3cc之类的函数,还有一些加密的函数,用来加密url,eval之类的等等。就真的让你整的特别崩溃,知难而退,但是穷而且想听音乐的梦想促进了我,于是乎,我使用了mitweb,忽略掉指定代码,成功扒了他的网站,拿到了我的音乐。