熟悉网络IP/TCP协议,熟悉HTML结构,熟悉使用xpath,beautiful,正则等匹配技术,精通requests抓取技术,熟练使用fiddle、charles抓包技术,熟悉selenium模拟器浏览器抓取技术,熟悉appium+mitmdproxy抓取app技术。
会反反爬图片验证码、滑动验证码,能防止网站检测selenium。面对各式网页、app突破反爬准确采集所需内容。
可抓微信公众号与淘宝登陆信息,突破滑动验证码(图片),模拟人为复杂滑动轨迹成功登陆账号,每天定时启动程序,使用xpath精确抓取所需内容。
重编译chrome源码,修改chromedrive代码突破网站对selenium的检测技术,成功登陆账号抓取信息。
使用appium操作手机app,mitmproxy程序自动抓包爬取app上的信息内容。