- 熟练基于 Scrapy 框架进行分布式爬虫(Redis),利用 Xpath,BeautifulSoup,Re 进行数据清洗,并解决登录,Javascript混淆,等各种反爬措施。
- 熟悉 Docker 微服务架构,对于工业大数据平台有一年半的开发经验。
● 主持数据源组的日常管理,工作细化划分,布置每日任务
● 负责构思并实现 爬虫 -> 数据集 的自动化流程的需求分析,可行性分析及开发
● 负责构建 ip 代理池、cookies 池,及其维护
● 负责数据的清洗、解析、爬取的去重以及进行数据挖掘与研究。通过 pandas 实现新闻类数据的自动清洗
● 组内工作流程完善优化