项目描述:
爬取中国汽配网(企业大全、汽配城),爬取顺企网(汽配商),爬取法兰克福(参展商数据),爬取全国汽车交易会数据,汽配百度,汽配365,帮手汽配网
岗位职责:
根据领导要求,克服反爬苦难,抓取网站上所需数据,爬取完成后存成json文件,然后进行数据清洗,最后保存到MySQL数据库中,负责数据爬取和清洗
应用技术:
1、xpath定位网页元素进行爬取数据
2、正则匹配想要的数据,进行爬取数据
3、用Python字典、列表处理数据
4、遇到反爬机制访问过快,定时随机爬取数据
5、将清洗好的数据入库并进行查重、去重
6、编写json文件和Excel导入数据库脚本
7、selenium抓取数据