ID:300737

地球修理工

大数据工程师

  • 公司信息:
  • 荣耀
  • 工作经验:
  • 4年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 所在区域:
  • 北京
  • 海淀

技术能力

1、熟练使用Flume数据采集框架;
2、熟练使用kafka,对Kafka消息队列的架构和数据消费的严格一次有充分认识,并有一定的调优经验
3、熟练使用SQL,并具备SQL性能调优能力,进行相应业务处理;
5、熟悉Linux开发环境,能熟练使用Linux常用开发命令并制作Shell脚本;
6、 熟练使用python开发语言,有用numpy,pandas,matplotlib进行数据分析和使用爬虫的经验;
7、熟悉数据仓库模型理论、经验,使用Hive进行场景业务开发,掌握Hive调优工作;
8、 熟悉Java开发语言,对于scala也有充分的了解,能够进行项目和业务开发;
9、部署过haddoop,zookeper集群,熟悉mr,shuffle流程和机制,掌握Hdfs、Yarn等常用组件的使用和原理;有调优经验。
10、熟悉spark框架的原理和使用,实际应用sparkstream、sparksql进行过流式数据以及结构化数据的处理。
11、熟悉帆软FineBI的使用,用FineBI和clickhouse做过数据可视化报表。给业务方提供数据支撑。
12、熟悉ETL工具Kettle的使用。
13、熟悉flink的工作原理,有过部署flink集群以及flink实时开发经验。
14、熟悉Azkaban和海豚调度器的使用。

项目经验

2018.06 – 2022.12
公司名称:深圳瓜花科技有限公司
职位名称:大数据开发工程师
工作内容:
1、负责各需求代码编写。
2、负责离线数仓优化,保证任务运行稳定。
3、负责处理指标任务运行中出现的问题。
4、负责内部技术文档编写、整理。

项目情况
项目名称:数据可视化看板制作以及看板查询性能优化、数仓调度任务维护、表与表字段的增删。
使用组件: FineBI,Clickhouse,mysql,python,excel,word,ppt,DolphinScheduler
项目简介:
根据业务方的需求,进行相关数据的清晰,转换,抽取和数据可视化看板的制作以及异常排除、看板权限管控。
项目描述:
1:对接数据库或者办公系统,熟练运用python,kettle,exce,pptl等数据分析工具,来进行数据的ETL工作,按需求将规范化的数据存入到clickhouse或者mysql。
2:利用FineBI从上述数据库抽取数据,进行可视化看板制作。如词云,热力图,柱状图,列表,仪表盘等等,为决策层提供数据支撑和展示。
3:对业务方的看板需求进行优化和后续升级。
4: 利用海豚调度器调度脚本并监视数仓各层脚本运行状况,有异常,通过分析错误日志进行异常排除并重新调度,确保数据正常入库。
5:根据业务方的需求,和前端协调埋点数据,增加新表,或对已经存在的表进行字段的增添删减,为字段增添后数据正常入库入表提供保障。常见的异常有未修复分区, 字段类型不匹配,字段顺序错乱,任务调度超时等。
6:clickhouse分片集群本地表和分布式表的维护。

项目名称:全民减价商城离线数仓分析平台
使用组件:Hive、HDFS、flume 、Sqoop、Presto、Atlas
项目简介:
该项目负责对业务和日志数据的统计分析,将分析结果分层,避免重复计算,并将结果使用可视化工具进行展示。
个人职责:
1、 参与数据仓库模型的设计和搭建工作。
2、 参与指标的实现:如:GMV、浏览路径、用户变动、用户留存等。
3、 保证每日任务按时完成,和HQL语句的调优。

项目名称:商城数据采集系统
使用组件: Flume、Hadoop、MySQL、Sqoop、Zookeeper
项目简介:
将业务数据与用户行为数据导入HDFS,保证离线数据仓库的数据来源稳定,为下一步的数据仓库的统计分析做准备。
项目描述:
1、 概述:MySQL中的业务数据经Sqoop采集到HDFS,前端埋点产生的用户行为数据经Flume、Kafka采集到HDFS。HDFS具有分布式存储,数据副本等特点。缺点是不适合存储大量的小文件。
2、 前端埋点的数据到了日志服务器,落盘,采用flume组件进行一个数据的采集,这里,我们的flume只采用了source和channel,source采用的是taildirsource,该种类型的source优点在于支持断点续传,channel采用多个是kafka-channel。考虑到业务增长以及特定节假日活动带来的数据冲击,采用了kafka-channle,起到一个削峰填谷的作用。
3、 数据到了kafka-channle,我们再用一层flume进行数据传输,这可以看作是第二层的一个flume,source是kafka类型的source,channel采用memory-channle,考虑到数据要到hdfs存储,所以,使用了hdfs-sink。文件设为128m滚动一次。和块大小设置为一样。避免小文件过多。
4、 日志数据通过上述步骤拉取到hdfs,然后将业务数据采用sqoop这个组件拉取到hdfs中,这里要注意,业务系统每天都会更新存储在mysql中的业务数据,不同的业务对应不同的表,不同表的同步策略不一样(有全量同步,增量同步,增量和变化同步,以及特殊策略)。要区分对待。
5、 将业务和日志数据存到了hdfs中,这是原始数据,是后续数仓进行HQL分析的数据来源。
个人职责:
1、搭建数据采集系统,确保业务数据和日志数据能准确写入HDFS中
2、编写开发文档。
3、负责处理后续采集系统中出现的问题,持续进行优化。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服