熟悉Scrapy,Django框架,可以熟练的操作mysql,mongodb,redis数据库,熟练掌握数据清理和去重,了解分布式爬取的策略,掌握web常见的布局,html、css、ajax 、JavaScript 、 js加密、ob混淆 各种反爬手段;
数据所见既所得
全国各类环保类网站数据采集;
企查查、文书网、招标数据、腾讯地图、各类数据采集、清洗、解析、提取;
独自负责全国663个城市的空气环保监测网站的数据监控
此图是我目前正在独立负责的数据支持,当前展示为北京市当日空气质量监测情况,数据支持展示全国663个城市每天的检测情况,并通过6因子计算当日AQI指数,为敏感人群提供出行建议
数据采集任务监控系统,可以查看每个任务当前采集情况已经统计任务成功率和失败率,发生异常时可推送报警邮件