精通NLP相关算法,如Word2Vec, LDA, RNN, LSTM, GRU, tf-idf, Glove, Bert, Attention, HMM, CRF等,
精通常用机器学习算法,如xgboost, GBDT, OPTICS, DBSCAN, KNN, K-means等,
精通Python编程,熟练使用框架tensorflow, pytorch, keras
> **智能客服机器人项目** (2018.06–2019.05)
- 主要负责以下模型:
1. `QA抽取模型`:任务是从原始人工客服对话数据中抽取问答对扩充FAQ库。一共有三个模型,包括:基于规则的模式匹配模型、基于LSTM-CRF的深度模型、AQ-GAN模型。
2. `分句模型`:利用上下文无关句法分析,通过分析句子并列结构进行拆句来实现高效率多意图识别。
3. `中文纠错模型`:BKTree建立混淆集字典,通过基于仓颉编码与拼音编码的编辑距离作为距离度量,建立N-gram语言模型。
4. `短文本语义距离模型`:基于tf-idf与word-embedding的问句相似度匹配。
5. 其他:包括K-means聚类进行FAQ库“瘦身”、设计neo4j存储模式实现深度问诊等。
- 使用工具:Tensorflow, gensim, StandfordNLP, Falcon, Neo4j, Redis, ElasticSearch等
- 主要负责以下模型: 1. `QA抽取模型`:任务是从原始人工客服对话数据中抽取问答对扩充FAQ库。一共有三个模型,包括:基于规则的模式匹配模型、基于LSTM-CRF的深度模型、AQ-GAN模型。 2. `分句模型`:利用上下文无关句法分析,通过分析句子并列结构进行拆句
- 主要负责以下模型: 1. `日期抽取模型`:任务是从对话数据中抽取日期信息。针对日期信息的相关特征建立特征化的上下文无关语法规则,采用nltk中的相应语法分析器对对话数据进行解析后生成结构化日期信息。 2. `智能产品推荐模型`:任务是通过尽可能少的提问收集客户信息来