熟练掌握爬虫 requests、scrapy爬虫流程
掌握正则表达式、xpath提取网页资源方法
熟练掌握 滑动严重,ip限制,动态加载,字体加密,逆向等反爬
熟练抓包工具 mitmpeox,Fiddler,青花瓷的等
熟练各种读取存储
熟练构建分布式爬虫
项目一:
boss招聘的招聘信息
涉及方法:
selenium 验证码识别, 窗口切换, 领域切换
目的:
抓取招聘信息, 薪资, 地区等
项目二:
抓取天眼查,企查查信息
涉及方法:
ip代理, 多线程, 随机useragent, 随机cookie, 动态加载
目的:
企业的商业信息抓取存储mysql
通过js解密,ip代理, 随机useragent,cookies机制,多线程 将一些企业数据抓取存储sql
抓取天眼查的的企业信息,将企业信息存储到数据库中, ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,