1、从0-1独立搭建并部署 Hadoop 分布式大数据分析平台,版本2.8.4,将历史库存数据、出入库
数据、及相关的维度表 BU 、业务类型、省份城市等业务数据,通过 Sqoop或 DataX ETL 工具从
不同的业务系统同步到 Hive 数据仓库, 通过与业务沟通并对数据进行分不同主题的数据建模,进
行清洗分层(ODS-DWD-DWS-ADS),从而满足不同业务场景的查询分析需求。前端通过
Tableau 客户端连接 Presto 计算引擎,制作可视化 BI 分析报表,数据分析人员也可以通过客户
端链接,直接使用 SQL 语句进行查询分析。业务主题场景包括:1.SMB 历史8周库存的体积趋势及
库存周转情况.2.各个大区、战区的出入库体积分布,及 BY 不同产品组的主机量分布等;
2、 搭建 ClickHouse、Doris DB、StarRocks 等分布式 MPP 分析数据库,利用 DataX 工具将
MySql 数据同步到 StarRocks,,能够使几十亿+条数据,查询实现秒级响应;
3、 独立搭建 Tableau Server BI 系统,从0-1搭建可视化报表分析平台。从而使数据分析人员通
过 Tableau Desktop 发布并上传所开发的可视化报表。
4、 负责利用 PowerBI 可视化工具,制作部门可视化看板,并发布到联想工作区,分享指定的业
务人员,如:历史库存波峰、波谷、主机量、CDD、GIS、M4等指标看板
5、 通过 python 爬虫技术,对菜鸟、物通网、德邦、物联云仓等网站数据进行抓取,存储到数
据库,清洗校验之后,供业务进行参考,同时按照业务需求将运输价格及仓库信息展示在 WEB 端
可视化大屏。