chuan的案例列表

数据抓取简例

企业服务-数据服务 chuan

采集任务的分析,并负责采集方案设计; 分析页面结构使用正则表达式、xpath、css选择器等方式采集确保数据不遗漏; 采用scrapy框架实现爬虫方案,并重写start_requests,对部分静态数据采用正则提取,使用redis对新增url资源去重以提高效率; 编写pipline,加入ip、模拟浏览器Ua等以保证爬虫运行; 对接公司已有数据对采集的数据进行数据清洗(主要针对电话号码去重以及无省市地区添加省市归属地); 使用pandas库处理公司内部运营数据;...

数据抓取简例
数据抓取简例
------ 加载完毕 ------
联系需求方端客服