我拥有扎实的数仓开发经验,精通数据建模(星型/雪花模型)、ETL流程设计与开发,熟练运用SQL、Python、Scala进行数据清洗、标准化及实时/离线数据处理,掌握Hadoop、Spark等分布式计算框架,具备企业级数仓架构设计能力。转型AI领域后,深入掌握机器学习(聚类/回归/分类),擅长利用TensorFlow、PyTorch框架进行模型训练,并主导医疗领域的大模型微调项目,熟练使用ModelArts等AI开发平台进行医疗数据处理与特征工程。在医疗AI应用方向,具有医学数据脱敏合规处理经验,熟悉DICOM等医疗数据标准,成功将AI模型集成至PACS/HIS系统,实现疾病辅助诊断功能落地,并完成模型性能监控体系的搭建
。同时掌握数据可视化(Tableau/Power BI)及医疗AI伦理评估能力,实现从数据治理到AI产研的全链路闭环
负责商家域数仓模型搭建,整合重复指标,下线、更新老旧指标口径,提供核心模型表解放分析师自写逻辑的工作,以往分
析开发报表需要4人日,最终帮助分析节省3天以上人日,报表查询提速90%,同指标逻辑一致性100%保障
负责商品域数仓模型搭建,梳理已有各大宽表指标和逻辑口径,结合新业务需要下沉核心模型表并统一化指标口径,以往分
析开发报表需要3人日/迭代,最终帮助分析节省2天以上人日/迭代,废弃冗余报表60%,业务运营报表使用效率提高50%
负责订单域数仓模型搭建,参与订单正向业务数据重构,整合新老模型,更新老指标数据口径,搭建各业务过程的模型表,
以往分析开发报表需要4人日/迭代,最终帮助分析节省3天以上人日/迭代,以往其他域开发取该域数据需1人日/迭代,现只
需直接查询取数使用
负责商家数据产品的数据模型设计,数据回流,性能优化等,该项目给商家带来了1.5倍/月收益提升,商家入驻率提升40%
负责数仓数据治理项目,下线废弃指标,sql逻辑优化,模型优化,sql编写和任务发布规范等,最终代码规范度提升到
100%,整体任务提速60%,数据质量保障率提升70%
负责数仓降本增效项目,错峰填谷,无效任务治理,分时段cu治理,付费模式切换,代码参数调整,模型沉淀,抽数全改增
等,最终平均每月存储治理pb级,累计缩减cu千级别,计算成本平均每月降低15%,存储成本平均每月降低20%
负责数仓任务保障项目,启用sla,定制dqc模板规则,任务层级依赖治理,核心任务基线保障等,最终新增任务及核心任务
sla,dqc任务级配置率100%
协同平台开发团队从0-1搭建指标系统,提供模型设计,指标定义和数据支持等,实现了千级一级指标和万级二级指标的口
径统一,提速报表生成速率和业务人员自定义生成汇报报表速率80%