- 主要负责以下模型:
1. `QA抽取模型`:任务是从原始人工客服对话数据中抽取问答对扩充FAQ库。一共有三个模型,包括:基于规则的模式匹配模型、基于LSTM-CRF的深度模型、AQ-GAN模型。
2. `分句模型`:利用上下文无关句法分析,通过分析句子并列结构进行拆句来实现高效率多意图识别。
3. `中文纠错模型`:BKTree建立混淆集字典,通过基于仓颉编码与拼音编码的编辑距离作为距离度量,建立N-gram语言模型。
4. `短文本语义距离模型`:基于tf-idf与word-embedding的问句相似度匹配。
5. 其他:包括K-means聚类进行FAQ库“瘦身”、设计neo4j存储模式实现深度问诊等。
- 使用工具:Tensorflow, gensim, StandfordNLP, Falcon, Neo4j, Redis, ElasticSearch等