基本信息

案例ID:213836

技术顾问:华美网络 - 15年经验 - 清华同方

联系沟通

微信扫码,建群沟通

项目名称:网页数据抓取器

所属行业:工具 - 办公软件

->查看更多案例

案例介绍

这是一种“网络爬虫”,用于抓取网站的数据。最初实施于某国家级政府机关单位,用于抓取国外特定网站上的数据,包括日韩欧美等近20个特定网站上的数据。后又用于抓取其它多个领域的网站数据
1. 功能特点
可以对要抓取数据的网站进行配置,核心代码根据配置对各个网站进行解析,获取有用数据存储入库,可以进行复杂的数据提取,比如下载分页的pdf附件,在附件可有可无、名称不确定、页数不确定的情况下也能正确抓取;
可以指定抓取某个网站上的某个网页的某个区域的数据;
可以模仿人工浏览网页的方式执行数据抓取。比如抓取某网站的pdf文件,手工操作按照这些步骤进行:第一步需要先输入用户名密码后登录,第二步进入搜索界面按照关键字进行搜索,第三步在搜索到的结果列表中找到某行信息;第四步下载者此信息的附件pdf,pdf是分页浏览器的。在这种情况下可以通过配置后准确的抓取全部页数的pdf文本。
2. 技术特点
对抓取的数据通过xml文件进行配置,以便网站版面、样式等发生改变的时候能够及时调整;
强大的地方是配置文件中可以编写脚本;
采用java语言编制,可以方便的嵌入到各种系统中。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服