一、 豆瓣信息爬取和知识图谱构建
1、使用python scrapy爬取豆瓣读书(https://book.douban.com/tag/?view=type&icn=index-sorttags-all)下的图书基本信息,包括:类别、名称、作者、出版社、出版时间、价格、评分、评价人数、内容简介。数据量不小于5万。
2、使用neo4j构建图书知识图谱。实体结点包括:图书、作者、评分、类别、出版社。图书属性:出版时间、价格、内容简介;评分属性:评价人数。
二、问答系统功能实现
1、问句理解选择基于模板匹配方式,通过朴素贝叶斯分类器对用户问句分类匹配查询模板。
2、命名实体识别采用Word2Vec字向量模型、BiLSTM-CRF模型,构建Cpyher查询语句。
3、功能优化:模糊查询、联系上文查询。
三、web前端展示
1、使用Django构建web问答页面:logo图片、标题-豆瓣图书知识问答
2、热门问题模板预设
3、问题输入框、查询结果框。