基本信息

案例ID:143602

技术顾问:宇空星雨 - 3年经验 - 深圳普云信息技术有限公司

联系沟通

微信扫码,建群沟通

项目名称:政府网站数据爬取

所属行业:电子商务 - B2B

->查看更多案例

案例介绍

对智联、58、51、大街网、万行教师、中国商标网、BOSS直聘、招聘狗等各大招聘网站和企业数据网站进行个人简历与企业数据的爬取,爬取数据量约14亿,并对部分数据做清洗,生成报表。
技术描述:1.使用Scrapy框架进行数据的爬取;
2.参与分布式爬虫框架设计,搭建Scrapy_Redis提高爬取的效率;
3.对部分网站仍采用了Requests进行爬取,后基于aiohttp做了异步爬虫框架的封装,提高爬取效率;
4.中国商标网企业数据爬取遇到JS加密的反爬,通过不断分析网站,以数据为导向,最终找到绕过JS加密反爬手段的接口,获取到需要的数据;
5.大街网会动态更换登录的cookie信息,通过发送搜索页来获取新的cookies信息,再携带着新的cookies重新获取数据;
6.在爬取大量数据后,MySQL查询效率明显变慢,后采用大数据技术,搭建HBase集群(并使用zookeeper做高可用集群),将爬取到的数据存放到HBase中;

相似案例推荐

其他人才的相似案例推荐

  • 圆圈

    圆圈

    该项目主要针对智慧园区,独立完成该项目开发,撰写技术文档,和

  • 区块链商城

    区块链商城

    此项目为webapp,含有商城功能,数字货币购买,以及该货币

  • 掌厨后台

    掌厨后台

    功能:对商城订单和平台客户的管理 角色:负责完成商城订单部

  • 掌厨

    掌厨

    功能:在线食材商城,可以通过线上下单,线下完成配送。 负责

  • 纳米系统

    纳米系统

    纳米系统分为客户端和业主端,系统又分为移动端和web端 主

  • 电子商务平台(dx)

    电子商务平台(dx)

    该项目是电商模式处于井喷时代时而研发的,主要功能类似于的淘宝

  • U.S. Trading Company

    U.S. Trading Company

    项目描述: 当前应用是针对客户仓储系统,商品浏览,大客户下单

  • 玛氏智能补货平台

    玛氏智能补货平台

    目描述:该项目是玛氏中国为其下游经销商开发的一款具有人工智能

  • 不可上传

    不可上传

  • 不可上传的

    不可上传的

  • 某游戏公司BW网站

    某游戏公司BW网站

    游戏门户网站,对接多家平台,对门户网站后台数据逻辑展示。以及

  • 汇电商

    汇电商

    负责整个浏览器插件的开发上架,已经接口数据抓取分析,以及服务

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服