负责设计开发分布式网络爬虫系统,进行多平台信息抓取和分析工作;
根据业务需求,实现大规模文本、图片数据抓取、清洗、存储等工作;
根据业务需求通过抓包技术,包括代理、selenium、验证码处理等;
根据业务需求获取各大平台cookies实现模拟登录和模拟请求接口获取数据。
网易云新闻的网址进行抓包分析。
用scrapy框架对网易云新闻的标题和正文进行爬取。
用 xpath 和正则表达式对网页中元素进行定位。
将定位后的信息编写代码逻辑进行爬取和数据清洗处理。
将处理的数据进行数据库存储。
角色 | 职位 |
负责人 | 爬虫工程师 |
队员 | 后端工程师 |