本头条项目形态模拟今日头条互联网社交媒体项目,内容则以技术类文章为主,为终端学习用户提供精准的、感兴趣的技术文章,为技术类的自媒体人提供自运营的平台。
该类项目是互联网中大数据驱动结合内容运营的成功案例,各大公司都纷纷投入该模式的运营,正成为互联网发展的新方向;也因项目背后的技术涉及大数据存储、大数据计算、微服务、DevOps等热门技术的综合应用。
利用用户时间碎片化、地域切换频繁、形态社交化、内容个性化等综合特征下,通过收集用户行为数据、分析用户行为特征、大数据推荐计算,为用户提供感兴趣的、精准的技术文章。
我的职责
主要负责数据迁移方案
随着业务的增长数据量越来越大,对于爬取的数据,过期的文章等进行迁移,使用mysql 存储会影响mysql的性能,并且我们需要对数据进行流式计算,对数据进行各种统计,mysql满足不了我们的需求,我们就将mysql中的全量数据同步到HBASE中,由HBASE保存海量数据,mysql中的全量数据会定期进行删除。
实现思路:
自媒体文章审核通过后,马上同步数据到hbase中,并且在app文章表的字段sync_status同步状态,修改为1, 1为同步,0为未同步
定时同步,做一个定时任务,每天凌晨扫描app文章表,把没有同步的文章再同步一次
定时删除,做一个定时任务,按照文章发布时间,定期删除一个月之前的app端的文章数据
查询文章(特别是我的收藏,历史查阅记录等),查询的思路如下:
先去mysql中去找该文章,存在则直接返回
如果mysql中没有找到,则需要查询hbase,返回该文章信息