1、熟悉 Mysql,Redis、Hive、HBase 、Oracle等数据库开发应用,了解其结构原理,并在oracle或mysql中开发存储过程,优化脚本,进行报表开发。
2、熟悉 Java、熟悉Linux平台、掌握常见开发语言(java,scala,shell),对数据进行清洗,解析,稽核,入库。目前在自学python。
3、熟悉hadoop系统架构,掌握HDFS存储你机制,YARN资源调度,掌握MapReduce原理,并能使用实现数据清理和数据分析
4、熟悉 Spark Rdd、Spark Streaming,能够使用 Spark SQL进行数据分析和计算。
5、熟悉flink原理,对flinksql,flink streamapi,flink流表join维表有一定了解使用。
5、熟悉Kafka技术、能够使用Kafka相关的api构建轻量级实时流数据应用
6、熟悉Flume日志数据收集框架,能够根据业务需求对配置文件进行相应的修改,满足业务需求
7、熟悉Sqoop、Redis、Zookeeper技术,能够运用sqoop实现mysql与hive中表数据的互相转换存储
8、熟悉hadoop/Spark/flink等框架工作原理并有一定的集群部署经验
9、熟悉ElasticSearch搜索引擎原理,并在项目中使用到es作为日志存储
10、熟悉数据仓库的设计分层,参与过数据仓库重构。
项目名称:工业大数据实时计算平台 项目时间:2020.04-至今 项目职位:大数据开发工程师
项目描述:工业大数据实时计算平台主要是解决实时流数据过程中一系列场景的数据计算,应声而出的一个计算系统,系统主要用于计算规则的灵活使用,对数据的实时计算和离线计算。
工作职责:1、flink计算平台的架构设计
2、flink on yarn集群的搭建与任务资源调优的解决方案与实施
3、flink计算任务面对数据延迟的解决方案与实施
4、设计工业中实时流补算的业务场景的解决方案
5、flink集群任务的调度接口设计与实施和监控设计方案设计
项目名称:数据运营管理系统 项目时间:2019.10-2020.3 项目职位:数据组组长
项目描述:数据运营管理系统是一个数据集成工程,需要整合各个业务部门的数据,因此会涉及到多种数据库和不同格式的数据信息,以数据为核心,要实现数据目录中心和各部门端之间的数据共享和交换,同时完成数据采集、清洗、比对、加工、校验、应用等全周期质量管理。
工作职责:1、独立完成数据运营系统的自监控模块的业务规划,并已交付在开发;
2、人员消费画像功能模块的开发,通过采集动态实时的数据和已有的静态数据,对套餐消费人群进行构建用户标签。
3、参与数据运营系统的数据稽核模块的设计方案,并独立开发数据稽核的脚本;
4、参与数据血缘模型的方案设计及业务逻辑,部署数据实时流传输采用的工具kafka;
5、部署hadoop,hive测试环境。
项目名称:数据运营管理系统 项目时间:2019.10-2020.3 项目职位:数据组组长 项目描述:数据运营管理系统是一个数据集成工程,需要整合各个业务部门的数据,因此会涉及到多种数据库和不同格式的数据信息,以数据为核心,要实现数据目录中心和各部门端之间的数据共享和交换
项目名称:工业大数据实时计算平台 项目时间:2020.04-至今 项目职位:大数据开发工程师 项目描述:工业大数据实时计算平台主要是解决实时流数据过程中一系列场景的数据计算,应声而出的一个计算系统,系统主要用于计算规则的灵活使用,对数据的实时计算和离线计算。 工作职责: