大语言模型(LLM)的训练和精调
RAG项目开发完整技术
Agent项目开发完整技术
自然语言处理领域小模型训练和精调
Bert、transformer小模型应用
文本分类,意图识别,实体识别,文本生成等
1、智能运维领域大模型指导下的RAG知识问答
背景:在智能运维领域,存在海量的用户手册,产品手册,专业知识等文档,运维人员在进行基础设施维护的时候需要进行查
阅。通常采用手工翻阅的方式进行查看,需要花费大量的时间成本和经历成本,效率较低。因此为解决这一问题,提出应用大
语言模型加外部知识库的方式的知识问答系统。
项目步骤,难点及方法:
1、文档检索模块,模型的【分块】、【向量化】、【存储】优化策略,通过改进文档分块方法、精调Embedding模型、改进
查询语句向量化方法,将文档检索模块的准确率(召回准确率)从82%提高到98%;
2、Reranker重排模块,通过精调Reranker模型,优化Reranker策略,将重排后的检索到的文档块取top-k,准确率从92%提
高到98%;
3、大模型内容生成模块,通过精调大模型使其具备伪答案生成能力(用于1、文档检索模块),问题分类能力(用于1、文档检
索模块),改进大模型Prompt逻辑,最后使大模型的RAG整体回答问题正确率(GPT3.5评分+Embedding评分加权后>0.6
的样例比例)从64%提高到89%。
注:大模型采用Qwen1.5-32B,粗筛模型采用Stella,精筛模型采用Fine-tuning之后的bge-reranker-large。大模型推理框
架采用VLLM,精筛模型推理框架采用TEI(Text Embeddings Inference)
2、智能运维领域大模型指导下的Agent调用开发
背景:在网络基础设施智能运维领域,有很多复杂的任务,运维人员需要查看某些设备的状态等信息,需要【采集数据】,
【分析数据】,【画出图表展示】等操作,过程繁琐复杂,进行一次基础设施的状态查询时间较长。因此本项目为降低运维人
员的工作量,改善平台的交互方式,应运而生。运维人员可以通过自然语言发出指令,本系统通过一系列操作准确调用后台定
义的api,完成符合用户意图的工作。任务包括但不限于【时间序列查询并图表展示】、【时间序列异常检测并输出结论和图
表】,【多时间序列对比分析】等
项目流程、难点和方法:
1、意图识别,通过改进意图类别划分(对后续步骤有较大影响),数据组织方式,数据采样增强策略,Prompt设计,将模型
准确率从95%提高到98.5%。
2、步骤分解,针对用户Query和第一步中的意图类别,应用精调过的大模型进行步骤分解。充分改进步骤分解的结构设计(使
后续api调用尽量合理且不耦合),使模型Rouge-L达到98.8%。
3、实体识别,对步骤分解中的实体进行抽取,首先应用Bert等经典模型进行试验,后续为了提升泛化性以及准确性,改为精调
大模型。使准确率(结果的字符完全匹配)从87%提高到96.5%。
注:大模型采用Qwen32B。【意图识别,步骤分解,实体识别】,API选择,参数选择,Text2SQL全部采用大模型进行。模
型推理框架采用VLLM。
3、基于GPT2及Qwen2的日志异常检测算法
背景:电信运营商的交换机场景中,会出现海量的异常数据,给运维人员诊断带来很大负担,因此设计基于GPT2的日志一场检
测算法,自动化分析日志异常,并且进行根因分类。
项目流程、难点和方法:
1、drain日志模板解析算法,基于java语言进行模板提取;
2、应用minhash进行日志模板合并,减少输入GPT2的词表大小;
3、应用日志序列训练GPT2,使GPT2学习到日志序列出现的顺序规律;
4、对GPT2输出的异常日志序列进行分类,分类的模型采用Qwen2-7B大模型,训练数据由人工标注。经过异常日志序列的数
据整理,特征提取,学习策略选择,应用适当的Prompt,将大模型的序列5分钟序列分类准确率从91%提高到98%,完整异常
序列准确率从95%提高到99.2%。
4、服务网站查询改写系统
项目难点及方法:
1、查询关键词改写需要在以往任务日志中通过一定的方法查找出同义词构建词典;
2、但是这些关键词并不准确,需要语义判别模型对其进行修正过滤,但是训练判别模型高质量的正负例是逼近模型性能上限的
关键,因此引入协同训练方法;
3、并且在在线场景下词典泛化性能低下,需要继续引入不依赖候选的通过强化学习训练的生成式改写模型,进一步提高召回;
4、在线场景下,针对搜索关键词不匹配或者NER切分错误导致的无结果、漏召回问题,引入在线向量化召回方法,提高召回。
性能提升:通过引入同义词词典,将CTR提升5个点,到7%;通过引入判别模型对词典进行过滤,将CTR提升6个点,到13%;
通过引入生成式改写模型,将CTR提升10个点到23%;通过引入向量化召回,将CTR
根据给定知识库, 1、相关文档检索, 2、文档重排, 3、大模型答案生成, 4、给出对应Query在知识库中的答案
基于Bert的自然语言理解系统,包括:意图识别、实体、关系提取、智能问答等功能,功能全部来自于Bert的fine-tuning.