简介:分布式爬虫系统,根据客户授权,通过⽹网络爬虫,收集客户在相关电商、票务、社交⽹网站的⽤用户信息,以便便综合评定客户信⽤。
技术:Python + MySQL + Mongo + Redis + Kafka + ELK + Relic + Prometheus
职责:带领团队,从零到一,设计和实现整个分布式爬⾍虫系统。
1) 抽象并实现爬虫整体框架,包括 Verify 授权模块,Crawl 爬取模块,Retry 重试模块
2) 爬虫服务支撑子系统,包括 Dashboard,代理池 Proxy Pool
3) 基于 Mongo 和 MySQL 的数据清洗和存储子系统