掌握Python语⾔和Scrapy,Flask框架;Celery任务调度;
使⽤node.js部署API接⼝服务;
熟悉SQL性能调试;掌握Mongodb,Redis常⽤功能和特性;
熟练使⽤numpy,pandas 进⾏数据分析;
使⽤docker,supervisor,gunicorn 快速部署管理线上项⽬;
对反爬策略(封IP,JS混淆,验证码)有⾃⼰的应对⽅案;
监管采集系统
项⽬描述:
监控并采集各⼤应⽤市场中的APP信息,对信息进⾏衍⽣,采集对应企业,公众号信息,并使⽤爱加密检测
平台⼯具对APK进⾏检测。根据采集状况,对不同渠道APP信息进⾏聚合处理,区域划分,⾏业划分,正盗
版判断。并根据各地政府需求整理报告数据。
职责描述:
系统重构:舍弃原有的Java爬⾍,使⽤Scrapyd + Celery 搭建分布式采集系统。scrapyd 管理爬⾍任务,
Celery 代替crontab 定时⽣成任务队列,供爬⾍服务器消费。
爬⾍封装:考虑到需要采集渠道过多且会持续增加,为⽅便管理,封装新的爬⾍类,实现提取信息模块化;中
间件可视化配置;配置的数据库读写。使400+个应⽤商店的爬⾍可以共⽤1个spider.py。基于signals,redis
实时存储爬⾍的运⾏状态。
策略优化:在历史数据的参考下优化Java原有的暗⽹搜索采集策略。并新增历史APP更新策略;⼤站优
先;APP新增判断策略;使⽤多个策略全⾯,实时更新数据;暗⽹搜索优化后采集由原来的1个⽉降低到2天以内,
⽇均采集⻚⾯ 5千万 +。引⼊BloomFilter去重, 降低 50% Redis去重所占的开销。
采集资源:完成 天眼查,百度信⽤ 企业信息爬⾍,使企业信息从依赖第三⽅API服务商转变为⾃主采集,节
约公司成本。新增微信公众号信息采集。
管理维护:使⽤Flask集成 scrapyd,supervisor 等管理⼯具,完成可视化的分布式爬⾍和任务管理平台。