一种大语言模型的训练方法、装置、设备及存储介质

本发明属于自然语言处理，具体涉及一种大语言模型的训练方法、装置、设备及存储介质。

背景技术：

1、预训练的大语言模型在自然语言处理任务上表现出了惊人的能力。尽管如此，大语言模型仍然存在着一些限制。在处理特定领域的问题或者即时问题的时候，由于大模型在训练时没有见过相关知识，因此可能会生成包含错误信息的回复，这种现象也被称为大语言模型的幻觉。利用检索到的文档辅助答案生成（检索增强）是缓解幻觉的一个有效方法，具体做法是利用检索技术得到一些与问题相关的知识文档，然后与问题一起输入大语言模型。

2、一般检索增强只作用在大语言模型的测试阶段，为了避免模型训练和测试阶段的不一致，限制知识引入的效果和最终表现，目前在大语言模型的训练阶段也应用检索增强的方法，但是目前训练阶段的检索增强都是将检索到的信息直接输入到大语言模型中，而检索到的信息会存在与问题不相关、冗余甚至错误的信息，导致训练的大语言模型准确率较低。

技术实现思路

1、为了解决大语言模型准确率较低问题，本发明提供了一种大语言模型的训练方法、装置、设备及存储介质。

2、为了实现上述目的，本发明提供如下技术方案：

3、一种大语言模型的训练方法，包括：

4、获取大语言模型的原始训练数据集，原始训练数据集中包括问题和问题对应的答案；基于原始训练数据集中的问题在知识库中进行检索，得到问题的多个相关文档和不相关文档；

5、预测问题在多个相关文档中的答案和对应的概率，将预测的概率与预设阈值进行比较，若目标答案对应的预测概率大于或者等于预设阈值，则将目标答案所在的文档作为目标文档；

6、基于目标文档构建问答样本，基于不相关文档构建拒答样本；其中，问答样本包括问题、目标文档和答案，拒答样本包括问题、不相关文档和预设的拒答模板；

7、基于问答样本和拒答样本对大语言模型进行训练。

8、可选地，在基于原始训练数据集中的问题在知识库中进行检索之前，还包括：

9、对知识库中的文档按照固定长度进行切分，得到多个文档块，且相邻的两个文档块包括重叠区域；

10、基于原始训练数据集中的问题在知识库中进行检索，得到问题的多个相关文档，包括：

11、对每个文档块进行嵌入得多个向量，对多个向量进行聚类操作，确定聚类中心；

12、将问题进行嵌入得到问题向量，在聚类中心中查找和问题向量距离接近的w个聚类中心；

13、遍历w个聚类中心的倒排链，计算问题向量与倒排链上向量的距离，将距离接近的个向量对应的个文档块作为相关文档。

14、可选地，在将距离接近的个向量对应的个文档块作为相关文档之后，还包括：

15、通过bge-reranker模型对个文档块进行重排序操作，选取相似度排名前位的文档块作为相关文档，。

16、可选地，预测问题在多个相关文档中的答案和对应的概率，将预测的概率与预设阈值进行比较，若目标答案对应的预测概率大于或者等于预设阈值，则将目标答案所在的文档作为目标文档，包括：

17、通过encoder阅读理解小模型预测问题在个文档块中的答案和对应的概率，若目标答案对应的预测概率大于或者等于预设阈值，选择目标答案所在的语句以及上下3句对文档块进行过滤，将过滤后的文档块中的语句取并集作为目标文档。

18、可选地，还包括：在大语言模型的训练过程中，通过lora方法对大语言模型进行微调。

19、本发明还提供一种大语言模型的训练装置，包括：

20、检索模块，用于获取大语言模型的原始训练数据集，原始训练数据集中包括问题和问题对应的答案；基于原始训练数据集中的问题在知识库中进行检索，得到问题的多个相关文档和不相关文档；

21、处理模块，用于预测问题在多个相关文档中的答案和对应的概率，将预测的概率与预设阈值进行比较，若目标答案对应的预测概率大于或者等于预设阈值，则将目标答案所在的文档作为目标文档；

22、样本构建模块，用于基于目标文档构建问答样本，基于不相关文档构建拒答样本；其中，问答样本包括问题、目标文档和答案，拒答样本包括问题、不相关文档和预设的拒答模板；

23、训练模块，用于基于问答样本和拒答样本对大语言模型进行训练。

24、本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述大语言模型的训练方法。

25、本发明还提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述大语言模型的训练方法。

26、本发明提供的大语言模型的训练方法具有以下有益效果：

27、本发明在大语言模型的训练阶段，检索问题的相关文档，预测问题在相关文档中的答案和对应的概率，将预测的概率与预设概率进行比较，若目标答案对应的预测概率大于或者等于预设阈值，则将目标答案所在的文档作为目标文档，可以对检索到的相关文档进一步去噪，使相关文档与问题更加匹配；其次，基于目标文档构建问答样本，基于不相关文档构建拒答样本，基于问答样本和拒答样本对大语言模型进行训练；由于目标文档更加准确，因此基于目标文档构建的问答样本的质量更高；通过构建拒答样本进行训练可以使得大语言模型具备拒答的能力，在面对不包含回答问题的相关信息时可以拒绝回答而不是输出错误答案，降低大语言模型生成无关内容的风险；因此，本发明通过在大语言模型的训练阶段，对检索到的相关文档进行去噪、以及根据不相关文档构建拒答样本，提高了大语言模型的准确性。

技术特征：

1.一种大语言模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的大语言模型的训练方法，其特征在于，在基于原始训练数据集中的问题在知识库中进行检索之前，还包括：

3.根据权利要求2所述的大语言模型的训练方法，其特征在于，在将距离接近的个向量对应的个文档块作为相关文档之后，还包括：

4.根据权利要求2或3所述的大语言模型的训练方法，其特征在于，预测问题在多个相关文档中的答案和对应的概率，将预测的概率与预设阈值进行比较，若目标答案对应的预测概率大于或者等于预设阈值，则将目标答案所在的文档作为目标文档，包括：

5.根据权利要求1至3中任一项所述的大语言模型的训练方法，其特征在于，还包括：在大语言模型的训练过程中，通过lora方法对大语言模型进行微调。

6.一种大语言模型的训练装置，其特征在于，包括：

7.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1～5任一所述的大语言模型的训练方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1～5任一项所述的大语言模型的训练方法。

技术总结
本发明提供了一种大语言模型的训练方法、装置、设备及存储介质，属于自然语言处理技术领域，包括：获取大语言模型的原始训练数据集，基于原始训练数据集中的问题在知识库中进行检索，得到问题的多个相关文档和不相关文档；预测问题在多个相关文档中的答案和对应的概率，将预测的概率与预设阈值进行比较，若目标答案对应的预测概率大于或者等于预设阈值，则将目标答案所在的文档作为目标文档；基于目标文档构建问答样本，基于不相关文档构建拒答样本；基于问答样本和拒答样本对大语言模型进行训练。该方法能够降低大语言模型产生幻觉、生成无关内容的风险，提高大语言模型的准确率。

技术研发人员：张硕,张文桥,汤斯亮,李俊成,庄越挺
受保护的技术使用者：浙江大学
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)