猿急送>

其他其它兼职程序员

ID：253157

Tommy 有团队

大数据架构师

公司信息：
无

工作经验：
4年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
其他
全区

技术能力

1，大数据Hadoop生态（HDFS，MapReduce，YARN，spark，flink，kafka，flume，sqoop，HBase，zookeeper，clickhouse，Doris）完整的解决方案，及落地案例
2，大数据体系建设，架构设计，行业数仓梳理及落地（离线数据仓库+实时数据仓库的解决方案）
3，基于原生Hadoop组件，我们开发了一套独立的系统，其中包括调度系统，血缘管理系统，即席查询系统，指标管理平台，零编码流平台，埋点管理系统，后台管理系统等等，能够根据自身的需求，动态扩展功能
4，我们致力于研究与发展湖仓一体，流批一体的解决方案，目前致力研究数据湖（Hudi，Iceberg）

项目经验

跨境电商数仓项目
软件架构：
离线：MySql -> Spark-SQL(平台封装工具)-> Hive -> Spark-sql(WaterDrop) -> clickhouse
实时：MySql(binlog) -> canal -> Kafka -> Flink -> (kafka,HDFS) -> clickhouse
数据流向：
使用平台封装的 Spark-SQL 对mysql数据抽取写入Hive表中，对数据进行脱敏，降噪，去异常，数据建模，数据聚合等操作，通过封装的WaterDrop 把数据导入到Clickhouse。部分明细数据推送click house提供即席查询
项目描述：
公司需要规划统一的数据管理/分析平台，以及核心指标的实时监控。实时部分通过canal集群以及Flume日志采集工具采集实时生产的数据，对数据进行处理，落到ClickHouse，进行核心指标的分析和提取。
离线部分整合各个站点（可以理解为国家）的数据，进行统一建模，形成一致性维度。对数据进行拉宽，从DWS层推到ClickHouse，进行数据多维分析。

团队情况

整包服务：其他开发

角色	职位
负责人	大数据架构师
队员	产品经理
队员	UI设计师
队员	前端工程师
队员	后端工程师

案例展示

大数据项目

跨境电商数仓项目软件架构：离线：MySql -> Spark-SQL(平台封装工具)-> Hive -> Spark-sql(WaterDrop) -> clickhouse 实时：MySql(binlog) -> canal -
实时数仓

数据流向：使用Clickhouse的kafka引擎拉取Kafka数据到clickhouse本地集群，通过物化试图对数据进行消费，写入到分布式表中。summingMergeTree引擎基于ReplicatdMergeTree进行预聚合，并设置数据的 TTL 生命周期。通过Wat