1.理解hadoop的分布式文件系统,掌握hadoop集群的搭建
2.根据业务需求,完成Map/Reduce编程
3.熟悉hive数据仓库
4.熟悉hbase,clickhouse面向列式的分布式数据存储系统及mongodb分布式文件存储系统
5.擅长kafka 消息队列
6.熟悉flink,spark streaming实时处理方案
7.对flink原理,基本架构,各种接口编程,参数调优,以及反压checkpoint 和内存优化也有一定了解
8.熟悉使用redis缓存工具
9.熟悉使用elasticsearch搜索引擎
10.熟悉sqoop数据转移工具
11.熟练zookeeper分布式服务
12.熟悉spark计算引擎
13.扎实的Java,pyspark基础,熟悉scala
14.多线程,IO,JVM等有较深得理解
15.对springMVC,SpringBoot,Netty,myIbatis,Struts,Hibernate,SpringBoot,bootstraps,JS,Ajax等技术框架搭建和开发具有很强的编码能力
16.熟练书写Linux脚本执行文件
17.了解数据治理,算法建模流程,项目中涉及推荐系统,并可单独开发推荐系统,包括实时推荐和离线推荐等
18.熟悉datablau等相关数据建模工具
19.平台架构可0-1进行搭建开发
项目名称:MA系统
软件架构:基于微软云腾讯云进行大数据平台构建及开发,项目涉及技术框架及技术有hue,oozie,hadoop,hive,flink,kafka,redis,flume,mysql,clickhouse等相关内容。
开发环境:idea+Tomcat+mysql+window+linux+腾讯云相关集群.
项目描述:
关于公司自研的APP社交系统,业务方面涉及数据看板,社交方面相关统计,埋点系统建设,人群分组,空间推荐,人物推荐等内容,即通过对APP端埋点数据收集及分析,统计相关日活,注册数,用户行为分析,针对不同源库的数据进行相关统计及建模,然后根据相关埋点数据进行数据挖掘,找出相关信息,进行好友推荐。
本人的项目成果及责任:搭建本地集群服务器,为相关系统提供运行测试环境,便于项目需求开发;建立云平台集群,进行管理维护,将相关项目部署在云平台进行线上数据统计及分析;项目涉及etl项目搭建及开发,内容包括ODS,DWD,DIM,ADS等相关层及数据分析,相关BI项目的建立及开发,另外项目规划之推荐系统开发。
项目二:MA(精准营销)系统
项目名称:MA系统
软件架构:基于微软云databricks进行市场营销活动开发,项目涉及技术框架及技术有vue、springcloud、nacos、pyspark、kafka、redis、nginx、mysql、mongodb、docker、k8s等相关内容。
开发环境:idea+Tomcat+mysql+window+linux+databricks.
项目描述:
关于第三方公司为客户开发的精准营销系统,业务方面涉及数据看板,标签维护,人群分组,营销活动,ABTest等内容,即通过对标签的维护,建立不同的标签人群,描绘人群的相关画像信息,在此基础上进行相关营销活动,涉及短信,小程序,微信公众号等不同渠道活动进行营销推广;功能方面系统分为MA前端系统,定时系统,nacos配置系统平台,触点系统,etl系统,调度平台等相关十多个系统。
本人的项目成果及责任:搭建本地服务器,为相关系统提供运行环境,便于项目需求开发;建立MA相关etl数据源,便于进行数据分析;增加相关礼品卡标签业务,涉及ODS,DWD,DIM,ADS,LABEL等相关层及数据分析、辅助维护客户进行升级等。
项目名称:大数据系统
软件架构:基于大数据平台开发,项目涉及技术框架及技术有vue、springboot、nacos、kafka、redis、nginx、mysql、clickhouse、spark、trino等相关内容。
开发环境:idea+Tomcat+mysql+window+linux+databricks.
项目描述:
关于公司内部开发的大数据平台系统,功能涉及辅助开发人员进行平台建设和开发;通过监控大屏进行数据资产管理,并及时反馈数据异常信息,跟踪调度任务,API,元数据等相关信息;建立表间血缘关系,便于跟踪查询数据来源,通过数据地图展示相关业务数据;平台可进行数据建模,类似于对datablau进行集成;平台集成有任务调度功能,也可接入第三方如airflow调度系统;支持多种来源数据,进行数仓建设,可以针对数仓架构分层设计,包括STG\ODS\DWD\DWS\ADS,支持sql语句查询。
项目成果及责任:配合团队进行数仓业务开发,参与数据地图开发,参与调度系统前端开发。
项目三:视频游戏推荐系统
项目名称:推荐系统
软件架构:基于aws云进行大数据项目开发,项目涉及技术框架时也对其它框架进行比对,包括flink测试,vue+Springboot+hadoop+spark+hive+kafka+elasticserch+mongodb+机器学习算法等相关内容;
开发环境:idea+Tomcat+mysql+window+linux+aws+hive.
开发时间:2021.05至2022.08
项目描述:
关于公司研发的游戏或视频进行推荐的项目,项目流程如下,从视频或着游戏前端进行数据收集,收集数据传输至aws云服务器;数据处理服务器进行对收集数据进行实时处理,将数据整理成推荐系统相关格式,推荐系统经过相似性计算后,得出针对每个用户相似或者商品相似的商品,进行前端展现。
数据源系统:游戏平台,新闻平台
后端系统:数仓系统,推荐系统(实时推荐及离线推荐等相关分析),配置系统,报表统计系统,任务管理系统。
数据流:采用flume+kafka来完成实时流式日志处理,后面连接flink/或者spark streaming等流式实时处理技术,完成日志实时解析目标。
ETL涉及采集、去重、去除异常值等数据之相关内容
本人的项目成
角色 | 职位 |
负责人 | 一表通项目负责人 |
队员 | 前端工程师 |
队员 | 后端工程师 |