基本信息

案例ID:202983

技术顾问:Passerby - 3年经验 - 北京神州云合科技有限公司

联系沟通

微信扫码,建群沟通

项目名称:指定网站数据抓取

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

项目描述 :
东森网、虎嗅网等主要门户网站 大众日报、人民日报等网站信息爬取使用 scrapy 框架进行爬取增加过滤器,采用分布式 服务器爬取
项目由三大部分组成 :
一缓存 ,读取多来源 xpath 信息进 redis ,
二下载 ,redis 信息读取 ,布隆过滤 ,运行爬虫 ,依据去重的断点进行自动选择爬取三分析,爬取数据的进行,敏感词过 滤 ,生成关键词 ,摘要 ,缩略图等 ,
存入 MongoDB数据库 ,并根据条件入不同文章库
涉及反反爬虫机制 ,设置 User-Agent ,Cookie ,设置延时 ,使用代理 IP
图片使用 scrapy 框架自带的模块进行下载 ,缩略图处理
不同来源相同文章 ,无图文章的过滤最终保存在 MySQL 关系型数据库中 ,设置多字段,易于查询和管理。项目职责:建立每个来源的 Xpath 信息 ,包含新闻列表以及正文的十余项内容针对内容有无翻页,分析网页静动态,get请求,post 请求
使用 Requests ,Xpath ,re 等模块进行网页文字内容和链接网址解析和提取确定不同频道的新闻展示方法,比如长新 闻 ,大图模式 ,一图模式 ,图集模式设置 不同类型的字段 ,进行代码编写
对于竞品内容信息以及其他不需要的内容进行区别过滤 根据日志信息 ,查找来源网站的不同错误信息,比如各项字段没有取到 ,停爬 ,无图 ,无更新等不同异常 ,对其进行测试修正 对于测试无误的来源代码,推送服务器进 行线上运行入库量异常的处理

相似案例推荐

其他人才的相似案例推荐

  • test

    test

    测试。。。。。。。。。。。。。。。。。。。。。。。。。。。。

  • 微信分析

    微信分析

    其实我的年龄和其他程序员比起来已经没有什么优势了,而且我现在

  • 数据分析

    数据分析

    其实我的年龄和其他程序员比起来已经没有什么优势了,而且我现在

  • 爬取专利号

    爬取专利号

    通过爬虫技术获得指定专利的专利号信息,数据量为50万,获得成

  • 通过地理编码,逆地理编码获得行政区划代码

    通过地理编码,逆地理编码获得行政区划代码

    通过爬虫获得指定地理位置获得地理编码,通过重投影获得在地图上

  • 大数据可视化平台

    大数据可视化平台

    平台主要城市运营体系、智慧公安、智慧社区、解读分析等模块

  • 智慧食堂

    智慧食堂

    为保证员工的用餐高效、用餐方便、用餐灵活、展示企业的人文关怀

  • 数据运营管理系统

    数据运营管理系统

    随着信息通信技术的快速发展,数据已成为国家和企业的一种重要的

  • 建设云平台

    建设云平台

    一款类似于钉钉的OA系统,分为pc和app端,集成了低代码平

  • 元数据平台

    元数据平台

    保利元数据管理平台 描述:由于保利采用微服务架构,每个微服

  • 保利云和加

    保利云和加

    保利云和+线上营销系统 描述:上线“保利云和+”这看似简单

  • 医药电商平台

    医药电商平台

    1.负责项目管理及开发,医药电商平台、康美时代、康美健康云、

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服