机器学习与NLP方向学生,有图数据库的使用经历,熟悉Python/C++、常用机器学习和深度学习算法及其工具sklearn、keras等、HMM和CRF等自然语言处理常用模型和工具,掌握数据挖掘算法和数据结构等
医疗知识图谱构建 2017/11-2018/6
从医脉通等网站爬取数据。采用AC自动机、规则及BiLSTM+CRF识别命名实体和属性,有监督方法抽取关系,完成实体对齐、融合等,并对知识嵌入表示和问答进行了简单的研究。
实体链接 2018/10-2019/6
负责构建别名和术语词典,使用别名、莱温斯坦比及网页检索和重定向等方法获取候选实体,根据实体相关性构图并图计算等方法将查询文档中的实体链向知识图谱中的特定条目。
远程监督关系抽取 2019/06-至今
主要研究基于远程监督的关系抽取,在PCNN注意力模型基础上利用RL来抑制噪声,根据数据设计有效负例采样等多个角度改进模型,基于规则和kg embedding作为下游方法提升质量,平均抽取准确率达到了94.5%,最高可达到99.5%。