精通Python:1. 数据分析:pandas、numpy、sqlalchemy
2.编程:面向对象、异常处理、互联网访问、爬虫、web框架(Django)
精通使用MySQL数据库 、hiveSQL
主研机器学习算法有推荐算法 、强化学习 、二分类模型评估
精通使用pyspark开发机器学习算法模型与数据模型
精通使用BI工具:superset与quickBI
熟练运用Linux操作系统与指令
熟练使用scala-spark建立数据模型
2019.08-2021.12 互联网广告智能投放平台
项目描述:调用广告平台API接口实现自动化广告投放,分析广告投放数据,挖掘广告投放优化方向
项目角色:产品设计、后端功能开发、运维
具体工作内容:
汇总广告API接口参数与业务需求,设计数据表结构以及数据流,汇总可实现功能并撰写操作文档,python开发广告投放功能接口。
实现自动化广告投放后,编写python脚本定时获取广告投放数据报告,结合业务需求,统计广告投放数据转存至MySQL数据库并用BI工具进行展示。随着数据量增长,将数据报告转存至hive数据库,并用pyspark进行数据清理与统计,统计结果数据使用datax从hive数据库转存至MySQL数据库。
统计计算广告数据报告中的关键指标,比如转化率、转化成本、投放时长等,根据关键指标获取预设的对应优化操作,拆解并执行API接口请求,记录广告优化操作日志。
使用强化学习模型,挖掘不同关键指标下广告计划的最佳优化行为。将广告页面点击率与转化率组合作为状态(state)的评估指标、已对广告计划的优化操作作为行为(action),点击率与转化率提升作为正面奖励(reward)。
2021.07-2022.04 手机卡销售利润结算数据平台
项目描述:将广告投放数据与手机订单成交数据进行入库,建立集成业务数据的数据仓库,通过数据仓库进行数据清理与手机卡销售的利润结算,将手机卡销售情况以不同维度,使用BI工具进行展示。
项目角色:数据仓库设计与开发、实现数据应用
编写python脚本,提供数据入库的工具,通过jupyter可视化界面,实现上传数据并执行脚本,供运营人员实现数据入库。收集可获取源数据的API接口,使用定时程序的方式获取数据并入库。
结合业务数据划分与数据结合过程中的容错率,设计数据仓库结构,编写python脚本实现数据仓库数据的清理、计算、统计,随着数据量增长使用hive数据库与pyspark实现数据仓库的数据更新。
BI工具与DA层数据表进行连接,绘制BI界面进行展示。BI展示不仅用于业务观察,还要用于发现异常数据,将异常数据进行反馈,获取解决方案,解决方案包括数据处理规则扩展、业务数据逻辑调整、反馈源数据存在的问题进行修复等。
2020.11-2022.04 基于用户APP行为特征提取人群包
项目描述:从每月十亿级别的手机卡用户中,以APP行为频次作为特征,建立二分类评估模型,提取最相近于已转化手机卡用户的手机号进行打包,投入于广告平台作为广告计划的投放定向。
项目角色:特征工程、落实业务
读取hive数据库获取手机卡用户APP数据,计算APP使用频次与时长(天) 并对其进行格式化,以月为单位保存至数据库准备进行特征工程。获取正样本数据(已转化手机卡用户)保存至hive数据库。
进一步计算APP行为数据、进行归一化与向量化、获取特征向量。计算指定月APP使用频次与时长、归一化之后作为当月APP使用特征。对比两个月的数据,计算APP使用频次与时长变化,作为APP使用变化特征。获取待观察APP列表,进行过滤后进行向量化,作为最终模型训练的数据,为特征向量打上正样本与负样本标签。
根据业务需求,获取经过模型预测后的数据。指定业务需求数据量、是否重复获取历史数据、是否转存等选项,将以上选项作为入参,执行数据获取的脚本,根据模型预测时给予样本的评分,递减的原则去获取数据,将结果保存至文本文件用于互联网广告投放的用户定向设置。
汇总广告API接口参数与业务需求,设计数据表结构以及数据流,汇总可实现功能并撰写操作文档,python开发广告投放功能接口。 实现自动化广告投放后,编写python脚本定时获取广告投放数据报告,结合业务需求,统计广告投放数据转存至MySQL数据库并用BI工具进行展示。随着数
项目描述:将广告投放数据与手机订单成交数据进行入库,建立集成业务数据的数据仓库,通过数据仓库进行数据清理与手机卡销售的利润结算,将手机卡销售情况以不同维度,使用BI工具进行展示。 项目角色:数据仓库设计与开发、实现数据应用 编写python脚本,提供数据入库的工具,通过ju