项目描述:
抓取网站中的企业信息,并将企业信息的企业状态与天眼查的企业状态同步剔除掉企业状态非正常的企业,然后入Hive资源库中进行下一步的清洗
技术描述:
使用Requests对url进行请求
设置ip代理
设置随机UserAgent
字体反扒
利用Time对爬取间隔设置间断
责任描述:
使用requests对目标网站进行访问并设置ip代理
设置随机UserAgen,对网站进行判断,状态码不等于200或者网站出现错误提示的话对ip和UserAgent进行变更
将加密的字字符串通过正则清洗出来并存储ttf格式,然后将ttf转换成xml格式,接着获取加密字符的动态变化值最后将结果通过字典传入并循环判断替换
用Xpath提取出所要抓取的信息,最后存储为csv格式
将抓取到的企业信息在天眼查进行抓取企业状态以及天眼查同步企业的的联系信息存储为csv格式
将最后的企业信息入到Hive资源库进行下一步清洗