有丰富的大数据OLAP实践经验,可以帮助中等规模互联网公司从零到一建立数据ETL流水线,数据仓库等等。
有丰富的Spark/Spark SQL/Scala应用程序编写和调优经验。
有丰富的AWS云服务使用经验,包括AWS EMR/AWS Glue/AWS Athena/AWS Lambda等等。
在推荐系统方面有较丰富经验。
编程能力较强,经验丰富。多年Java/Scala/Python/C开发经验。
扎实的数学功底和丰富的数据挖掘、机器学习算法研究和实践经验。熟悉常规算法和数据结构的原理和应用,热爱算法设计,有扎实数学功底。
在18birdies.com,作为数据团队负责人,负责搭建和持续改进18Birdies数据pipeline。基于Spark SQL+MongoDB+Airflow+EMR+Redis,分析处理用户transaction数据和行为数据,给下游业务部门和决策部门提供数据服务支撑(推荐结果及排序、实时排行榜、给BI提供数据源、等等)。
在18birdies.com,作为数据团队负责人,负责搭建和持续改进18Birdies BI系统。基于MongoDB+AWS Athena+AWS Glue+AWS Lambda+AWS Quicksight+Mixpanel(曾经还用过Google BigQuery+Looker),分析用户数据,给高层决策部门提供数据分析报表和Dashboard。
负责搭建和持续改进公司数据ETL流水线和数据仓库。基于Spark SQL+MongoDB+Airflow+EMR+Redis,分析处理用户业务数据和行为数据,给下游业务部门和决策部门提供数据服务支撑(推荐结果及排序、实时排行榜、给BI提供数据源、等等)。 负责搭建和持续改进
这是一个澳大利亚客户的项目。项目方需要我利用AWS Lambda检测源数据新增,对新增数据进行validate、有效内容提取、格式转换、并最终存储在documentDB(documentDB是AWS兼容MongoDB的数据库实现),并通过有针对性的索引,加速documentDB的