熟练使用 Python 的 Requests、Bs4、Selenium 等模块,爬取与工作相关的各类数据;
熟练运用 Python 的 Numpy、Pandas、Matplotlib、Pyecharts 模块完成工作项目中对数据的清洗、
分析、建模及可视化分析等各项功能;
1、瓜子二手车有反爬,需携带cookie进行访问
2、requests底层没有封装url去重的方法,手动实现利用redis集合构造url去重(注:如果公司没有redis,可以利用python集合set,保存请求的url,再读取set中的内容写入本地文件,后面每次运行程序的时候,再将本地文件中的url读取到set集合中,可以实现简易的url去重)
3、选择md5加密,尽可能少的占用redis内存
4、请求中加延时,考虑网站能否打开和打开时间问题,一般需
要加异常判断、超时、retry等减少报错
5、增量式爬虫,将数据保存到数据库,对重复的字段对应的数据更新操作
6、构建USER-AGENT池,使用随机代理,随机IP采用阿布云动态IP
7、使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件