知识图谱:
1.三元组抽取
2.实体识别
3.实体消歧
4.图数据库
neo4j数据库
文本摘要:
t5模型和bart模型
情感分类
• 会使用pytorch
• 熟悉bert和elmo的使用
• 熟悉文本相似度模型esim模型的原理和使用
• 了解实体消歧中,sentancebert和simCES的原理和使用
• 了解在标签不平衡的时候,labelEmbedding,PET模型的使用和原理,
• 独立完成过实体识别,实体关系识别和情感分类等NLP中经典任务
风险评估知识图谱构建
独立完成过实体识别,实体关系识别和情感分类等NLP中经典任务
一.使用客户在注册账号时填写的个人信息和在风控测评中做出的选择等数据,通过实体关系抽取的方式,抽
取实体和关系
二.进行实体消歧任务,1.运用简单的余弦相似度进行召回 2.运用bert等模型进行精排 3.人工消歧
三.把处理完的结果输入进图数据库中
难点:在进行实体消歧任务中,因为金融的敏感性,模型往往还是不能够完全被信任,很多工作还是通过人工来完成
金融问答系统
一、意图识别
1.训练出基于albert的分类模型,通过albert的cls+全连接层的方式,进行分类
2.把用户问题输入albert,判断问题是闲聊,还是金融问题
二、生成式模型
1.使用GPT2+规则的方式生成聊天
三、检索式模型
1.先用word2vec+余弦相似度,在金融的数据库中,召回与客户问题相似的十个问题
2.再用sentancebert+余弦相似度,从十个问题中抽出最接近的问题
四、输出答案
难点:1.在闲聊系统中容易出现一定敏感词,需要非常严格的规则加以限制。
2.客户的问题千奇百怪,搭建的金融问题数据库有时候可能满足不了用户需求
用户地址消歧和地址识别
目的:用户在注册期货账号填写地址和注册基金账号填写地址不相同,需要判断是同一个地址还是第二地址
一、使用基于bert的simCES模型进行地址消歧
1.把地址分别两次输入bert,因为训练中dropout的原因,两次输出的encoder必然不同
2.再与一个batch内的其他输入求相似度矩阵,类似与self_attention的操作
3.把另一个encoder出来的当成正例,其余batch的输入当成负例
二、根据消歧结果,判断是否需要地址识别来增加新地址
如果需要地址识别
1.使用bert+span的方式,预测类别的头和尾
2.使用PGD对抗网络,增强模型的鲁棒性
可用去提取三元组,效果不错。 增加了对抗网络,运用了PGD的对抗网络模型,提高了模型的鲁棒性。 用到的数据集是网上下载的数据集
一、意图识别 1.训练出基于albert的分类模型,通过albert的cls+全连接层的方式,进行分类 2.把用户问题输入albert,判断问题是闲聊,还是金融问题 二、生成式模型 1.使用GPT2+规则的方式生成聊天 三、检索式模型 1.先用word2vec+余弦相