• 了解常用分类、回归算法,如决策树,LR,随机森林,GBDT,XGBoost,了解深度学习 DNN,了解深度学习框架 tensorflow,熟悉常用的特征工程方法,能使用 scikit-learn 进行快速建模。
• 掌握常见的数据结构及基本算法,熟悉 sql 语(Mysql/Hive SQL),有大数据 Hadoop/Hive 使用经验。
• 编程语言:熟悉 Python,了解 Java/C 语言。
• 有 Linux 使用经验,有 javaweb 开发经验
• 有爬虫经验
实习经历:
2018.11- 2019.02 腾讯科技(深圳)有限公司 光子工作室-技术中心 实习算法工程师
• 实习期间就职于腾讯 IEG 光子工作室技术中心,参与最强 NBA 替代玩家掉线场景的ai开发。
• 个人负责数据处理和策略优化。对不同游戏场景分别训练网络,取第一帧非同步帧作为模型输入,gap3 帧后从后 6 帧中取摇杆和按键信息作为数据的 label,通过四个多输出的神经网络,对游戏对局进行操作。
• 在对模型进行优化特征,数据加权,调整网络结构,联合loss由0.18下降至 0.11,对局流畅感和真实感都有显著提升。目前项目已移交后续人员进行开发。
2018.07- 2018.10 北京嘀嘀无限科技发展有限公司 地图事业部-上车点策略团队 上车点策略实习生
• 实习期间就职于滴滴地图事业部的国际化上车点策略小组,参与巴西地区上车点的通用策略建设。
• 上线推荐上车点服务前的方案 Badcase 较多,对于司乘体验损伤大,随后在巴西圣保罗上线上车点通用策略 v1 版。
• 个人主要负责v1 版本通用策略,上线后有效改善30m 定点率、成单后取消率等多项指标。策略为:由乘客上车点召回一系列点后对上车点的热度、空间等特征计算后筛,再计算剩余上车点特征,通过 lambdaMART 模型排序,产生 top3 推荐结果。
• 实习期间,发现圣保罗地区有部分地区的极端取消率现象,上报国内团队后推动了客户端的用户引导升级。
2018.04- 2018.06 烽火科技集团有限公司 技术部-后台开发组 后台开发
• 该项目是对宿迁公安推出的智能化系统,为公安数据建立的知识图谱,并对历史公安数据进行分析,以提高民警办案效率和能力。我负责案件串并案模块,即对相似案件进行挖掘并搜索展示。
• 参与后台实现与前台展示,并编写相应详细设计书、单体测试案例和代码编写。
竞赛经历:
2019.06-2019.08 华为DIGIX算法精英大赛--CTR预测 排 名:6 /3100
• 基于用户对广告任务的历史行为和广告任务属性,预测用户在特定上下文下对某个广告任务的点击概率。
• 个人负责特征处理,算法选型,模型评估。数据处理部分在分析测试集数据进行采样,并去掉部分噪声数据,效果明显提升。
• 模型初期采用lightGBM,在尝试deepfm后发现效果有提升但发现在测试集的得分明显高于验证集,融合lightgbm和deepFM后效果再次提升,最终auc为0.96。
2019.04-2019.06 招商银行总行FinTech精英训练营 优秀精英奖
• 线上竞赛进入百强后入营,以团队形式三天完成一个finTech项目的立项实现到汇报,团队最终获得优秀精英奖。
• 课题为互联网负面舆情新闻分类,模型使用lightgbm,特征为文本词tfidf和文本摘要及关键字的词向量。最终f1score为0.81。
• 训练营期间,积极学习金融科技前沿应用,参与招商银行课题研讨与实践,与团队共同完成该项目。我主要负责项目总体策略制定、技术方案选型、课题实现和最后的报告,在答辩报告阶段担任答辩手一职。
2018.01-2018.03 阿里巴巴天池大数据竞赛—乘用车零售量预测 排 名:43/2500
• 基于2012到2017年车辆的销量,产能和全国宏观经济月度数据预测2018年1月,2月全国分城市分车型销量。
• 个人负责数据分析,清洗,特征处理等。以历史12个月大小窗口,滑动3次,提取窗口的均值,方差,傅里叶变换后的方差等作为窗口统计特征。构建回归模型,线上表现良好。
• 用各种回归模型进行建模,使用GridSearchCV选择超参数,使用RMSE指标评估出最优模型,模型融合采用线性权重相加法。
2019.06-2019.08 华为DIGIX算法精英大赛--CTR预测 排 名:6 /3100 • 基于用户对广告任务的历史行为和广告任务属性,预测用户在特定上下文下对某个广告任务的点
功能: 目前网站的功能有相册,博客,音乐空间,留言板,聊天室,图标统计,访客统计,还有一些小特效demo 其中相册及微博涉及个人隐私,暂不开放浏览,但几个小的相册demo支持访问。 博客发布及音乐空间的上传功能处于安全考虑,以及服务器及储存限制,也尚未开放。 相册,博客,