了解常用机器学习算法的实现原理及其应用,有计算广告、推荐系统、CV、NLP的项目经验。熟悉Python,了解Java、C++、Go;熟悉sklearn、pandas、Light GBM等框架,有TensorFlow与PyTorch的使用经验;了解Hadoop、Spark等大数据处理系统;熟悉基本的数据结构和算法。
广告主续费行为预测 (暑期实习)
- 首先利用Hive提取原始数据,随后利用pandas研究数据,加工出正负样本并进行特征工程,再利用Light GBM构建树模型,并根据使用场景评估模型效果。
- 模型准确率与召回率均在0.8以上,具备在业务场景中实用化的潜力。
网络图像的文本检测 -- ICPR MTWI 2018 挑战赛二(天池竞赛)
- 基于 Keras对EAST模型进行改进。试验了VGG16、ResNet50等网络用作特征提取器骨架的效果,调整了特征融合器的通道数,并对相关超参数进行优化。
- 队伍竞赛名次为74/1424。
付费知识个性化推荐系统的搭建 (暑期实习)
- 利用Scrapy等爬虫框架从搜狗微信搜索爬取文章,并存入MySQL数据库。调研了推荐系统的实现,完成了基于模型的协同过滤推荐系统的初步设计。
- 爬取了几十万条相关记录;由于公司业务转向,未能完成该推荐系统开发。