猿急送>

其他后端兼职程序员

ID：319705

星辰大海

大数据运营

公司信息：
中软国际有限公司

工作经验：
1年

兼职日薪：
1100元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
其他
全区

技术能力

1. 熟悉Hadoop的分布式文件系统，熟悉Yarn管理调度流程及工作原理，熟悉HDFS的读
写流程，熟练搭建Apache版本的Hadoop集群。
2. 熟练掌握Flume日志采集通道的对接，掌握Flume的Source、Channel和Sink等各个组
件的灵活配置与使用。
3. 熟练掌握Kafka工作机制，能够搭建Kafka集群并监控，理解各项优化参数。
4. 理解Spark任务调度与资源调度的过程，熟练掌握Spark Streaming处理实时数据。
5. 熟练掌握Hive，熟练数仓中表的分层，熟练自定义UDF/UDTF函数的使用，熟练使用
HQL进行业务分析。
6. 熟练掌握Sqoop实现在不同数据库之间数据导入导出。
7. 熟练使用Linux常用操作命令，会编写Shell脚本。
8. 理解Hbase的存储原理，掌握Hbase预分区和rowkey设计。会对Hbase 做基本的操作。
9. 了解Spark、Hive、Kafka、Flume等框架的参数配置及优化。

项目经验

海狐海淘实时数据分析系统一期
软件架构：Flume+Kafka+Canal+Spark Streaming+Mysql+Redis +ElasticSearch+Kibana
项目周期：2018.05-2019.09
项目描述：
基于用户启动日志和事件日志，数据经 Flume 发往 Kafka 后 Spark Streaming 直接消
费进行实时计算和监控，实现了用户即时详单查询，业务量监控等。
责任描述：
1. 参与日志采集通道的维护和优化，保障数据顺利传输到 Kafka。
2. 使用 Kibana 对写入 ElasticSearch 中的数据进行可视化与监控。
3. 统计每小时日活和每小时销售额的实时变化趋势。
4. 实现不同条件灵活实时分析用户的购买行为。
5. 实现优惠券领取异常的实时监控。
6. 统计各品类最近一小时内的热门商品 Top10。
技术描述：
1. 用户日志数据直接由 Flume 采集到 Kafka，用户行为数据由 Canal 通过 MySQL 的
binlog 同步更新到 Kafka 中。其中 Canal 搭建高可用，提高稳定性。
2. 数据在 Spark Streaming 中借助 Redis 完成清洗和去重的操作。
3. 设置 kafka.maxRatePerPartition 控制 Spark Streaming 每秒消费多少条。
开启背压解决 Spark Streaming 数据积压问题。
配置 Spark Streaming 优雅关闭。
4. 手动提交偏移量到 MySQL 保证 Spark Streaming 数据不丢失。
5. 使用广播变量将小表数据广播提高小表 join 大表时的效率。
6. Spark Streaming 处理后的明细数据存入 Hbase，异常报警信息存入 ElasticSearch 供
运维人员监控。
7. 在 Redis 端加分布式锁或在 Spark Streaming 内使用 reducebykey 或 groupbykey 解决
线程安全问题。
8. 少数几个 key 造成数据倾斜时可以对两条流过滤出来这些 key 做大流打散小流扩容，
再与正常分布 key 的 join 结果做 union 即可。