研究方向自然语言处理/数据挖掘熟练使用常见机器学习如lgb,xgb,熟练使用深度学习模型。熟悉自然语言处理领域前沿技术,以及各种模型训练trick。在问答匹配,实体识别等领域有较多经验,曾获多项大数据算法竞赛(命名实体识别和数据挖掘类)top10余次,其中5次冠军。
命名实体识别任务
【2021.01-2021.042021数字中国创新大赛-智能医疗决策赛道】
项目简介:基于少量真实肝癌临床诊断病理文本标注数据,建立肿瘤相关属性的命名实体识别模型
主要负责:1.编写自动标注脚本,扩充训练数据。2.针对长文本数据,采用句子级滑窗法处理数据。3.尝试不同
的建模方案并进行优化。4.设计模型投票融合,最终F1值0.93。
主要成果:获2021数字中国创新大赛冠军,赛后开源发布DF平台高级实训教程,学习人数1200+
文本匹配任务
【2021.09-2021.122021CCFBDCI百度千言问题匹配鲁棒性评测】
项目简介:处理真实应用场景中的问题匹配仍面临鲁棒性不足的问题,从词汇理解、句法结构、错别字、口语
化、对话理解五个维度检测模型的鲁棒性,进一步提升问题匹配技术的研究水平
主要负责:1.进行文本数据分析探索,发现任务难点2.探索搭建二分类模型、双塔模型、多任务模型、Prompt
模型3.提出基于编辑距离激活的Token-Mask机制有效提升模型效果。4.分析Badcase并进行优化。
主要成果:获2021CCFBDCI百度千言问题匹配鲁棒性评测赛道冠军
命名实体识别任务 【2021.01-2021.042021数字中国创新大赛-智能医疗决策赛道】 项目简介:基于少量真实肝癌临床诊断病理文本标注数据,建立肿瘤相关属性的命名实体识别模型 主要负责:1.编写自动标注脚本,扩充训练数据。2.针对长文本数据,采用句子级滑窗法处理数据
文本匹配任务 【2021.09-2021.122021CCFBDCI百度千言问题匹配鲁棒性评测】 项目简介:处理真实应用场景中的问题匹配仍面临鲁棒性不足的问题,从词汇理解、句法结构、错别字、口语 化、对话理解五个维度检测模型的鲁棒性,进一步提升问题匹配技术的研究水平 主要