猿急送>

深圳Python兼职程序员

ID：165429

o(^o^)o

python高级工程师

公司信息：
深圳爱加密科技有限公司

工作经验：
5年

兼职日薪：
900元/8小时

兼职时间：
下班后
周六
周日

所在区域：
深圳
南山

技术能力

掌握Python语⾔和Scrapy,Flask框架；Celery任务调度;
使⽤node.js部署API接⼝服务;
熟悉SQL性能调试；掌握Mongodb,Redis常⽤功能和特性；
熟练使⽤numpy,pandas 进⾏数据分析;
使⽤docker,supervisor,gunicorn 快速部署管理线上项⽬;
对反爬策略(封IP,JS混淆,验证码)有⾃⼰的应对⽅案;

项目经验

监管采集系统
项⽬描述：
监控并采集各⼤应⽤市场中的APP信息，对信息进⾏衍⽣，采集对应企业，公众号信息，并使⽤爱加密检测
平台⼯具对APK进⾏检测。根据采集状况，对不同渠道APP信息进⾏聚合处理，区域划分，⾏业划分，正盗
版判断。并根据各地政府需求整理报告数据。
职责描述：
系统重构：舍弃原有的Java爬⾍，使⽤Scrapyd + Celery 搭建分布式采集系统。scrapyd 管理爬⾍任务，
Celery 代替crontab 定时⽣成任务队列，供爬⾍服务器消费。
爬⾍封装：考虑到需要采集渠道过多且会持续增加，为⽅便管理,封装新的爬⾍类，实现提取信息模块化；中
间件可视化配置；配置的数据库读写。使400+个应⽤商店的爬⾍可以共⽤1个spider.py。基于signals,redis
实时存储爬⾍的运⾏状态。
策略优化：在历史数据的参考下优化Java原有的暗⽹搜索采集策略。并新增历史APP更新策略;⼤站优
先;APP新增判断策略;使⽤多个策略全⾯,实时更新数据;暗⽹搜索优化后采集由原来的1个⽉降低到2天以内，
⽇均采集⻚⾯ 5千万 +。引⼊BloomFilter去重, 降低 50% Redis去重所占的开销。
采集资源：完成天眼查，百度信⽤企业信息爬⾍，使企业信息从依赖第三⽅API服务商转变为⾃主采集，节
约公司成本。新增微信公众号信息采集。
管理维护：使⽤Flask集成 scrapyd,supervisor 等管理⼯具，完成可视化的分布式爬⾍和任务管理平台。