案例ID:132297
技术顾问:chuan - 3年经验 - 中文集团(北京)
联系沟通
项目名称:数据抓取简例
所属行业:企业服务 - 数据服务
采集任务的分析,并负责采集方案设计; 分析页面结构使用正则表达式、xpath、css选择器等方式采集确保数据不遗漏; 采用scrapy框架实现爬虫方案,并重写start_requests,对部分静态数据采用正则提取,使用redis对新增url资源去重以提高效率; 编写pipline,加入ip、模拟浏览器Ua等以保证爬虫运行; 对接公司已有数据对采集的数据进行数据清洗(主要针对电话号码去重以及无省市地区添加省市归属地); 使用pandas库处理公司内部运营数据;
其他人才的相似案例推荐
平台角色:核心研发 平台业务:统一API开放平台,用于整合
平台角色:核心研发人员 平台主要业务:平台对车场单系统的云
该项目是一个企业内部后台管理平台,拥有基础RBAC基于角色访
政府国企项目: 1、北京市人民法院设计开发的是一套内部系
系统简述:The Data Center Solution
功能:监控数据图, 本人负责:JS开发折线图画图功能,网站
1、可查看充电站设备的实时数据以及故障历史信息 2、分不同
主要负责:人员信息录入、布控模板字段信息维护两部分前后端功能
标签系统:人员标签信息搜索、展示;车辆标签信息搜索、展示;重
利用HDFS 、MySQL、mapreduce等技术实现大数
我们是国电南瑞科技股份有限公司的某部门开发团队,由于是国企,
企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才
关注猿急送微信平台,接收实时人才推送