为了加速集团数字化转型过程,达到真正数字化运营,数字化营销目的进而建设集团层面的数据中台,对内面 向线下 200+家门店赋能,对外为整个行业提供数据解决方案; 该项目主要依托底层开源大数据平台 CDH、实时数仓 StarRocks、SpringBoot 数据服务等基础平台能力向上建设 整个集团性质的数据中台与解决方案; 1、数据底座,数据平台底层选型 CDH6.3.2+FLink1.13.6+StarRocks2.2 的实时架构,真正做到流批一体化的实时数据 通道,StarRocks 作为实时数仓存储支撑,既满足传统分层存储也满足基于物化视图的实时聚合模型构建,同时 向上统一接口数...
大数据平台主要采取业界开源 CDH5.12 构建,其中搭建 大数据生态圈的 hadoop 作为离线计算框架,spark 实时计算框架,Hive+ES 作为底层数据仓库提供海量数据存储 能力;另外采用 lua+openresty 构建数据采集上报接口将数据写入 kafka 消息队列,上层搭配 HighChart+mysql 为主 的离线数据报表平台以及 ELK 实时数据报表平台。 此外,利用 NLP 自然语言中的 word2vec+jieba 分词进行关键词提取,然后采取聚类/分类算法进行用户标签计 算,形成用户画像体系;基于用户画像体系实现协同过滤算法,主要进行 user-item ...
大数据平台主要采取业界开源 CDH5.12 构建,其中搭建 大数据生态圈的 hadoop 作为离线计算框架,spark 实时计算框架,Hive+ES 作为底层数据仓库提供海量数据存储 能力;另外采用 lua+openresty 构建数据采集上报接口将数据写入 kafka 消息队列,上层搭配 HighChart+mysql 为主 的离线数据报表平台以及 ELK 实时数据报表平台。 此外,利用 NLP 自然语言中的 word2vec+jieba 分词进行关键词提取,然后采取聚类/分类算法进行用户标签计 算,形成用户画像体系;基于用户画像体系实现协同过滤算法,主要进行 user-item ...