核心技能:
1)大数据技术:精通Hadoop及其生态系统(包括CDH),具备广泛的实时与批处理数据处理技术知识,如Druid、Spark、Apache Flink、Kafka和Kylin等。专长于构建高效的数据分析平台,使用Elasticsearch、Doris、Starrocks和ClickHouse等技术优化数据检索与分析流程。擅长利用Grafana、Prometheus等工具构建全面的监控与安全解决方案,确保数据安全与系统稳定性。
2)编程与开发:超过11年Java开发经验,3年Python及1年Golang开发经验,精通多种编程语言以高效实现数据处理、分析及优化任务。
3)ETL开发与优化:熟练使用 Informatica、Apache Nifi、Hive、Impala等 ETL 工具,优化数据管道流程。
4)数据湖与存储策略:深入研究并应用Hudi、IceBerg、DeltaLake及Paimon等数据湖技术,以支持大规模数据管理和分布式存储需求。
5)云计算与容器化:精通Docker和Kubernetes技术,具备在云环境(如AWS的服务:S3、EC2、RDS及Lambda)中部署和管理大数据应用的能力,确保高效率和可扩展性的运维。
6)自动化编排运维:熟练运用Ansible和Terraform,开发自动化部署脚本,提高一键化部署能力。
7)数据科学与算法应用:掌握线性回归、决策树、神经网络等机器学习算法,并能将这些算法应用于实际业务场景,有效地进行数据挖掘和预测分析。
8)SQL与数据库:精通 SQL,熟悉 Oracle、MySQL等数据库技术。
9)数据建模:掌握Inmon三范式、Kimball 和 CIF 的建模方法。
态势感知平台:一种综合型网络安全解决方案,目标在于帮助企业提升安全态势感知能力,应对不断变化的威胁环境。
1)架构设计 和 技术调研,调研了ES、OLAP的几款产品 ClickHouse、Doris、StarRocks 和 数据湖,还有Paimon。
2)实时数仓建设:对接的数据主要包括hids数据、容器上的应用日志、网关日志数据,存储在aws的S3上,使用filebeat进行采集,发送到kafka,使用 Flink(python开发) 接收 kafka的数据, 对其进行脱敏、清洗 和 整合等处理,使用redis 存储缓存数据,数据最终分别使用 ES、ClickHouse和Doris作为存储,结合CIF维度建模方法,提升数据处理和分析能力,由于每日处理数据达到亿级,并维护系统正常运行。
我在项目中的职责:
1、架构设计和技术调研,比如调研不同的olap平台,包括Doris、Starrocks、ClickHouse和Paimon
2、缓存队列用的是kafka,使用python flink sql 接收kafka做数据实时处理,最终写入Doris、ClickHouse 和 ES中,分别进行性能测试
3、基于 grafana、Prometheus、node-exporter 、钉钉的告警系统的构建。
4、平台部署编排语言用的是 ansible ,实现一键化快速部署,kafka、flink、es 的日常维护、升级
5、整个平台组件、作业的K8S容器化部署
6、代码审核和团队建设