案例ID:124112
技术顾问:大漠孤烟 - 10年经验 - 重庆大鼎科技有限公司
联系沟通
项目名称:中标网站数据采集
所属行业:企业服务 - 数据服务
需求说明: 1)爬取近2000网站,下载约300万条记录; 2)从不同格式的网页中提取关键信息,要求准确率达到85%(可人工干预); 3)能从PDF、图片中提取内容。 技术要点: 1)运用多组正则表达式提取内容,实现60%左右的正确率; 2)使用IP池应对反爬虫机制; 3)使用Selenium解决动态翻页问题; 4)利用Tesseract从图片中提取文字; 5)使用PDFMiner从PDF中提取内容。
其他人才的相似案例推荐
新项目用于游戏后台管理,前后端都是我一个人开发 ,前端用的
该项目2017至今一直处于维护中,项目获得用户好评。该项目主
本项目的主要功能包括: 1,爬取豆瓣TOP250的书籍
此款APP实现的主要功能是显示海洋牧场站点列表,显示海洋牧场
华为云智能管理系统,利用机器学习技术,让智能运维大脑越来越聪
多功能电力仪表专门针对电力系统、工矿企业、公用设施、智能大厦
短信平台,提供了短信发送接口和用户后台发送短信。同时对接了三
本系统是依据工作的流程和相关标准要求,实现了工作过程中对项目
本小程序实现了在线聊天功能,并且能根据用户不同的需求,创建不
该项目现主要包含登录、首页、客流分析、智能客流、安全防范、商
国家知识产权局专利检索数据挖掘 1.专利数据抓取 2.专
参与了河北省电子口岸单一窗口的开发迭代、河北省电子口岸官网的
企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才
关注猿急送微信平台,接收实时人才推送