现就职于金山猎豹,曾在科大讯飞工作,主要负责数据挖掘及自然语言处理。
职业技能:熟悉python、R、TensorFlow、Spark、Hive、Hbase、Mysql等编程语言的使用。熟悉机器学习算法、深度学习算法以及语言模型。
1.图书推荐:
从豆瓣上爬取十万本图书数据,提取与图书相关的读者书评,利用LDA、Bert等算法提取主题词,对图书进一步细化分类,找出相关联的图书。
2.基于迁移学习的思想。自动化识别Github中开源项目issue类型,该项目主要是解决样本数据不足情况下的缺陷分类问题,主要负责数据的采集及预处理,项目内分类算法选型(SVM+LR)以及项目间可迁移性分析,跨项目分类算法选型(基于模型的迁移+Bagging)。
3. 参与与凡普金科的合作项目,根据公司已有的数据预测用户的贷款意向,主要负责数据提取和清洗、特征提取以及模型训练的工作。
4.参与国元证券项目组,搭建spark集群,并负责平台的维护,定期将数据导入到hive中,并用grafana对数据进行前端展示。
5. 提取并清洗客服电话记录,将语音转为文本数据,对数据进行标注和分类,并用深度学习算法训练,判断语料中消费者是否有购买意图。