【1】 数据仓库的初次搭建
包括搭建 CDH 数仓平台,基于数仓平台搭建底层设施搭建与部署
【2】 etl , 数据分析的部署
包括从业务库导数据入仓,对数据进行分析的底层设施搭建与部署
【3】 大数据实时处理,离线应用的开发与部署
使用 SparkStreaming ,Flink 等开发实时应用
使用 Spark,Flink 等开发离线应用
来满足业务需要
【4】 数据部门输出服务平台的开发与部署
使用 SpringCloud 等微服务组件进行服务平台的开发, 将数据团队的结果输出
【1】 车联网车机数据实时传输处理系统
上汽与阿里合资的企业 : 斑马 会将汽车的车机数据从车机端(tbox) 实时收集,而作为业务端 我们需要针对这个实时的车机数据流开发相关业务系统. 因此 ,必须搭建一个稳定, 高效的底层车机数据实时传输平台,从斑马处实时拉取车机数据. 此实时车机数据传输平台由我带队开发, 团队有 6 人 其中5人负责Hadoop 端的应用开发 1人负责接口和前端开发 ,第一版实时系统耗时 2个月搭建完成, 后续也经过很多迭代优化 目前已运行3 年左右
【2】 数据输出服务平台的搭建
数据部门的结果需要对外输出, 包括 bi 人员的提数工具, 报表推送工具, 开发人员的接口输出 , 科学家团队的模型输出等 , 我带队搭建了大数据服务平台, 整合了 bi 人员,开发人员和科学家团队的相关需求 将数据部门的成果对外输出, 团队有3 人 负责后端与前端
斑马是上汽与阿里的合资企业,它有一套工业程序从汽车端的 tbox 中收集车机数据 而我的工作是带队搭建从斑马处实时获取车机数据的实时处理系统 该系统从斑马处实时获取海量数据 (每小时 约2亿条数据) 将其根据业务需求,科学家团队需求 等进行处理,最后入仓
针对数据部门的结果输出问题,本平台整合了 bi 人员的数据报表推送需求, 开发人员的接口输出需求 , 应用 Spring Cloud微服务架构,将相关功能整合至一起
科学家团队需要收集相关论坛的评论, 然后安排相关打标人员对评论进行打标 最后将结果输出至数仓 而我搭建的语料管理系统则完成评论的抓取, 打标人员的工作平台以及结果的输出