- 于2021年初将图片业务从线下的hadoop集群迁移到阿里云max_compute, 参照了阿里云的one-data体系, 对图片业务进行分层建模(ods,dwd等), 映射到离线架构的不同模块, 以更系统的, 更规范的方式重新定义了公司的数据开发流程, 同时也解决了线下机房集群弹性扩容不易的问题
- 主导并负责了对公司实时计算链路的一站式架构设计, 将公司实时性较高的业务由原来小时调度的伪实时结构调整到了kappa架构, 并对数据明细层做落盘处理, 在保证数据质量的前提下真正实现了实时处理
- 借鉴flink的exactly-once语义,elastic的segment定义和读写分离的思想,自主研发了一套实时的算法处理链路, 解决了具有依赖关系的去重数据流处理缓慢的问题, 成功由原来的单机30万每日处理量提升至1500万的单日处理量
- 糅合算法组与业务的思想差异, 对外提供统一的查询服务, 通过api网关实现了接口级别管理, 有效避免了不同产品间获取数据与期望不符的现象
- 通过收集客户对于款式灵感的行为数据, 清洗, 过滤后提供给算法组加入训练集, 成功实现了一个产品驱动技术提升, 技术提升反哺产品的完美闭环
- 废弃原来的代码裸机部署, 统一docker容器化, 用k8s的统一管理, 以更低的成本花销实现了服务的快速复制同时服务稳定性也得到了显著的提升