项目一: 基于知识图谱的医疗与健康智能问答系统
对公司内部的大量的医疗与健康领域的研究人员提交的proposal(关于特定疾病的研究现状,方法等等)文档进行基于知识图谱的智能问答系统的构建。研究人员提交的proposal为PDF格式,每个PDF大约10页,大约有5000个这样的PDF文件,同时还有和每个PDF文件配套的相关说明数据,以excel保存。该excel数据提供每个PDF文件的researcher的具体信息,比如ID,姓名,性别,所在领域,所属机构,所发表的论文,所提交的proposal等等。首先提取出PDF文件的内容保存到txt文件当中,对这些数据进行实体和关系的识别,并存入到neo4j中。最终构建出包含8类规模大约为2万的知识实体和15类规模约20万的实体关系的知识图谱。基于该知识图谱,和业务部门制定出相关的检测规则,利用自然语言处理技术进行解析,开发出一个智能问答系统。项目最终以web 应用的方式展示,业务部门可以使用实体识别,关系发现,智能问答等等功能。
全程独立完成项目。包括项目的需求分析,设计,开发,调试,实施和维护。最终向Executive team和业务部门汇报和演示项目的成果。