基本信息

案例ID:124112

技术顾问:大漠孤烟 - 10年经验 - 重庆大鼎科技有限公司

联系沟通

微信扫码,建群沟通

项目名称:中标网站数据采集

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

需求说明:
1)爬取近2000网站,下载约300万条记录;
2)从不同格式的网页中提取关键信息,要求准确率达到85%(可人工干预);
3)能从PDF、图片中提取内容。
技术要点:
1)运用多组正则表达式提取内容,实现60%左右的正确率;
2)使用IP池应对反爬虫机制;
3)使用Selenium解决动态翻页问题;
4)利用Tesseract从图片中提取文字;
5)使用PDFMiner从PDF中提取内容。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服