一、基于知识图谱的医疗问答机器人
• 数据预处理:设计句子切分算法,将非结构化医疗文本进行长短句切分。
实体与关系抽取:抽取半结构化数据,构建疾病,药品,疾病症状,疾病治疗方法等实体库与之 对应的关系,导入neo4j图数据库。
数据标注:采用AC自动机标注医疗文本中的实体,设计实体序列排序算法,解决实体嵌套问题,再加以人工校验。
模型构建:采用BERT+BiLSTM+CRF进行实体识别,设计实体替换,实体随机Mask,实体拼接等动态加载训练策略。模型在验证集上的F1值为94%。
意图与实体识别:解析query,采用tf-idf进行实体对齐,设计实体的意图归属算法,能够识别并拆解多意图,多实体,连接到neo4j图数据库查询对应的answer。
模型部署:采用flask线上部署,平均响应时间为0.25s。