基本信息

案例ID:188605

技术顾问: - 10年经验 - 小红书

联系沟通

微信扫码,建群沟通

项目名称:小红书

所属行业:电子商务 - B2C

->查看更多案例

案例介绍

1 项目背景
小红书是 一个很大的系统,我在这个系统主要负责信息流板块的数据处理和分析
,带领7人开发小队,接手这个板块一共两年半的时间,经历了数据量上万倍的增长
,也经历用户量百万到亿的蜕变
2 项目目标
我在本项目的目标有3个,1 提高推广订单的投入产出比,2 提高推荐列表的用户喜
好比,3 提高作品的标签准确度,总体来说就是提高用户粘性,按照用户的喜好推荐
作品
3 项目概述
1 整个架构采用基于http通讯srping cloud架构,java开发3名,python3名,R一名。
2 java采用fink+kafka读取用户行为记录
3 R通过mlib计算用户行为
4 python通过AI算法计算用户标签
5 用户启动app会读取标签喜好列表,通过算法推荐作品
6 用户的每次行为都会被记录,每隔一段时间上传服务器
7 数据存储采用Redshift,后转化为DorisDB
8 数据分析使用的ETL,后转化为hadoop
项目职责: 1 项目中担任的角色
我在本项目中的两年半时间里,一直担任着java技术专家,负责小组成员的管理以
及项目的主要开发,对算法以及架构不断的优化调整
2 项目中遇到的痛点难点
2.1 Redshift无法在不影响线上查询性能的前提下弹性扩展,一旦涉及到扩容,就会
涉及到数据重分布,从而影响集群的性能以及可用性。
2.2 ETL任务严重影响集群可用性。在Redshift中同时进行ETL任务的时候,会大量抢
占资源,从而影响数据分析的效率,导致查询超时甚至因为集群负载过大后整个集群
崩溃不可用。
2.3 没有良好的存算分离,数据存储容量存在瓶颈,无法满足随业务而快速增长的数
据量存储需求
3 解决问题的办法
3.1 随着数据仓库在Hadoop/Hive体系上搭建和完善,ETL任务全部转移至Hadoop集
群,这个阶段使用Presto完成OLAP分析。Presto天然和Hive共享元数据信息,且共同
使用物理数据存储,即插即用。大量的对数仓表的灵活查询使用Presto完成
项目业绩: 1 目标达成情况
1:稳定处理上亿用户日活跃的数据
2:稳定分析每日上万EB的数据量
3:稳定完成大型数据分析系统的更新迭代
2 我的贡献
1: 见证了小红书的发展
2:经历了数据蓬勃壮大的系统升级
3 稳定分析了小红书的数据
4 全面负责一个板块的开发迭代

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服