基本信息

案例ID:132297

技术顾问:chuan - 3年经验 - 中文集团(北京)

联系沟通

微信扫码,建群沟通

项目名称:数据抓取简例

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

采集任务的分析,并负责采集方案设计;
分析页面结构使用正则表达式、xpath、css选择器等方式采集确保数据不遗漏;
采用scrapy框架实现爬虫方案,并重写start_requests,对部分静态数据采用正则提取,使用redis对新增url资源去重以提高效率;
编写pipline,加入ip、模拟浏览器Ua等以保证爬虫运行;
对接公司已有数据对采集的数据进行数据清洗(主要针对电话号码去重以及无省市地区添加省市归属地);
使用pandas库处理公司内部运营数据;

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服