该项目需要爬取百度新闻推荐版的内容数据,要对不同板块的数据占比进行分析比较,需要通过 分析网页结构,对不同的板块分类的数据进行分类爬取存储,完成数据清洗工作,并进行定时爬取。
责任描述:
1.根据公司需求,负责爬取互联网,科技,财经分类,使用用Scrapy完成代码,用xpath对网页结构进行分析;
2.负责对爬取的数据进行清洗去重工作并存入数据库,爬取完成后通过邮件通知其他开发人员;
3.使用Redis分布式爬虫,充分利用服务器资源,提高爬取效率,开启定时爬虫,定时定点爬取。
项目名称:小红书数据爬取
项目简介:
根据公司需求,要获取小红书APP推荐中的美食信息,例如:封面logo,标签,文章标题,文章内容,文章标签,文章内容URL等。
责任描述:
1.制定爬取策略,手机APP端的小红书带有不可逆的加密策略,转向微信公众号内的小红书APP爬取数据,使用mitmweb抓取请求过滤请求,获取JSON数据。
2.使用代理IP请求重构后的URL,将请求头中的auth,auth-sign保存到Redis中。
3.使用数据库去重的方式对数据去重,设置请求间隔防止过度请求IP被封。
4.采用定时爬虫任务,每日爬取一次。
爬取东方财富有最全面的股票信息,通过代码获取沪深股票, 港股股票, ETF股票信息,然后合并, 最后保存为csv文件。后续可将数据进行可视化化分析,更加直观的展现
通过代码对电影首页进行爬取,获得所有电影的ID信息,通过组件新的网址进入每个电影的下载界面,再同意请求批量下载
可以通过输入博主主页网址,来批量获取其发布的视屏,以及视频的点赞、收藏等数据,以及视屏下面的所有评论,包括回复、每条评论的点赞数等等
爬取小红书博主的帖子,评论等各种数据,支撑图标导出到sql数据库进行数据分析,也可以添加实时监控来观察某一位博主的帖子情况