熟练爬虫的的基本流程,正则的使用、requests的请求和模拟登陆,http协议、json响应的解析、html响应的解析,jsonpath、xpath的使用,请求头及常见的反爬应对、js加密的解析和处理方法。
主要参与网站的数据采集工作,分析网站的流程,根据流程编写采集的脚本,解析获得的数据进行数据的清理,并保存想要的数据到电脑或者数据库:解决网站的反爬(请求接口的参数加密,前端js的逆向,IP的封禁等)
采集web端网站的房源信息,分析网站流程,根据流程编写脚本,解析出想要的数据并清理数据,将所需要的的数据保存到excel表格中
根据输入需要采集的量,采集规定网站的图片信息,解析图片的数据,获取图片的数据,保存到本地的文件夹..