1.项目概述:该项目为公司数据中心部门的项目,由自己申请转入希望学习实践更多知识,主要通过爬虫收集网络热门抖音、微博、小红书等网红数据进行清洗分析,提取出各大广告主需要的精准投放红人的粉丝画像如:粉丝区域分别、性别分别、年龄分别、人群分别等等以及红人的主要信息如:粉丝数,播放量、点赞量、营销额、直播数据等等。为广告主提供快捷方便易用的精准广告投放服务。
2. 涉及的技术: ● springboot、mybatis技术:项目基本架构使用springboot框架,采用前后端分离开发。数据库技术使用mybatis。 ● java、python爬虫技术:*数据的第一步是网络爬虫,本人主要负责微博数据的爬取工作,通过python等技术获取网页数据,通过登录验证,进行元数据的获取 。 ●消息队列技术:由于红人数据需要每日更新,爬虫抓取机器与速度有限,所以使用消息队列机制逐个获取任务进行爬取。 ●mysql技术:深入了解mysql技术,数据清洗需要处理千万级别的数据,对应数据库的索引与链表查询、分组、排线等技术深入学习实践,生成红人的报表与红人排行日榜周榜月榜等数据。 ● redis缓存技术:由于数据库是千万数据所有查询比较慢,为了提供良好的用户体验,每次清洗完数据把榜单等数据存入缓存,并对每日第一次请求红人详情数据也存入缓存,以加快用户访问速度