本说明书涉及计算机,尤其涉及一种针对大模型多轮对话能力的测试方法以及装置。
背景技术:
1、目前,随着人工智能的高速发展,由此训练出的大语言模型在虚拟助手、客服系统以及聊天机器人等领域都取得了巨大的成功,如内置了大语言模型的虚拟助手可通过模拟自然语言交流的方式为用户提供服务与帮助。
2、然而,巨大的成功也伴随着一个问题:尽管许多大语言模型设计时考虑了多轮对话的能力,并能够维持一定的对话历史,但随着对话轮数的增加,大语言模型可能会逐渐忘记之前的对话内容,导致回答不再连贯或失去先前讨论过的细节,甚至会出现错误。
3、因此,为了确保训练出的大语言模型的多轮对话能力,给用户以更好的服务,在大语言模型部署上线之前,需要对大语言模型的多轮对话能力进行测试与评估。
4、在现有技术中,通常通过人工的方式对大语言模型的多轮对话能力进行测试与评估,这种方式耗费巨大的人力成本且效率低下。
5、为此,本说明书提供了一种针对大模型多轮对话能力的测试方法以及装置。
技术实现思路
1、本说明书提供一种针对大模型多轮对话能力的测试方法以及装置,以部分的解决现有技术存在的上述问题。
2、本说明书采用下述技术方案:
3、本说明书提供了一种针对大模型多轮对话能力的测试方法,包括:
4、获取主题问题文本,并确定对待测模型进行测试所需的对话轮数;
5、根据所述对话轮数,执行针对待测模型的多轮输入操作,其中,针对每轮对话,将该轮对话对应的输入数据输入到所述待测模型中,得到所述待测模型在该轮对话输出的回答文本,并将所述待测模型在该轮对话输出的回答文本以及预设的提示语句输入到预设的辅助模型中,以通过所述辅助模型得到下一轮对话输入到所述待测模型中的输入数据,当该轮对话为首轮对话时,该轮对话对应的输入数据为所述主题问题文本;
6、将每轮对话对应的输入数据以及预设的评测文本输入到预设的评测模型,以得到针对所述待测模型的测试结果,所述评测文本记录有对所述待测模型进行评测的评测规则。
7、可选的,所述方法还包括:
8、将所述测试结果返回给指定用户所使用的终端设备,以使所述指定用户在基于所述终端设备展示的所述测试结果确定需要对所述待测模型进行调整时,在所述终端设备中执行调整操作,以对所述待测模型进行调整。
9、可选的,所述方法还包括:
10、根据所述测试结果,构建所述主题问题文本对应的测试用例,并保存;
11、所述方法还包括:
12、根据保存的测试用例,对所述待测模型进行测试。
13、可选的,根据保存的测试用例,对所述待测模型进行测试,具体包括:
14、读取保存的测试用例,并根据所述保存的测试用例,生成用例微调指令;
15、根据所述用例微调指令,对所述测试用例进行解析,以解析出所述测试用例中包含的问题文本,作为目标问题文本,以及识别出所述目标问题文本中包含的关键词;
16、从预设的文本库中确定出所述关键词对应的同义词,并根据所述同义词,对所述目标问题文本中包含的关键词进行替换,得到替换问题文本;
17、根据所述替换问题文本,重新对所述待测模型进行测试。
18、可选的,根据所述替换问题文本,重新对所述待测模型进行测试,具体包括:
19、确定所述保存的测试用例所对应的对话轮数,作为目标轮数;
20、根据所述目标轮数,执行针对待测模型的多轮输入操作,其中,针对每轮对话,将该轮对话对应的输入数据输入到所述待测模型中,得到所述待测模型在该轮对话输出的回答文本,并将所述待测模型在该轮对话输出的回答文本以及预设的提示语句输入到预设的辅助模型中,以通过所述辅助模型得到下一轮对话输入到所述待测模型中的输入数据,当该轮对话为首轮对话时,该轮对话对应的输入数据为所述替换问题文本;
21、将执行所述目标轮数的多轮对话所得到的所述待测模型在各轮所输出的回答文本与所述保存的测试用例对应的各轮所输出的回答文本进行比对,得到比对结果,以根据所述比对结果,确定针对所述待测模型的测试结果。
22、可选的,所述方法还包括:
23、根据所述测试结果,生成针对所述主题问题文本的干扰问题文本,所述干扰问题文本所要提问的内容与所述主题问题文本相同,但是模糊所述主题问题文本中对应的主题内容;
24、将所述主题问题文本输入到所述待测模型中,得到所述待测模型针对所述主题问题文本的回答文本,以及在所述待测模型输出针对所述主题问题文本的回答文本的对话窗口中,输入所述干扰问题文本,得到所述待测模型在已经完成所述主题问题文本的问答的情况下所输出的针对所述干扰问题文本的回答文本;
25、根据所述干扰问题文本的回答文本,得到所述待测模型的测试结果。
26、可选的,所述方法还包括:
27、根据所述测试结果,对所述待测模型重新测试所需的对话轮数进行调整,得到调整后对话轮数;
28、根据所述调整后对话轮数,对所述待测模型进行重新测试。
29、本说明书提供了一种针对大模型多轮对话能力的测试装置,包括:
30、获取模块,用于获取主题问题文本,并确定对待测模型进行测试所需的对话轮数;
31、对话模块,用于根据所述对话轮数,执行针对待测模型的多轮输入操作,其中,针对每轮对话,将该轮对话对应的输入数据输入到所述待测模型中,得到所述待测模型在该轮对话输出的回答文本,并将所述待测模型在该轮对话输出的回答文本以及预设的提示语句输入到预设的辅助模型中,以通过所述辅助模型得到下一轮对话输入到所述待测模型中的输入数据,当该轮对话为首轮对话时,该轮对话对应的输入数据为所述主题问题文本;
32、评测模块,用于将每轮对话对应的输入数据以及预设的评测文本输入到预设的评测模型,以得到针对所述待测模型的测试结果,所述评测文本记录有对所述待测模型进行评测的评测规则。
33、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述针对大模型多轮对话能力的测试方法。
34、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现针对大模型多轮对话能力的测试方法。
35、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
36、本说明书提供的针对大模型多轮对话能力的测试方法,首先获取主题问题文本,并确定对待测模型进行测试所需的对话轮数。根据对话轮数,执行针对待测模型的多轮输入操作,其中,针对每轮对话,将该轮对话对应的输入数据输入到待测模型中,得到待测模型在该轮对话输出的回答文本,并将待测模型在该轮对话输出的回答文本以及预设的提示语句输入到预设的辅助模型中,以通过辅助模型得到下一轮对话输入到待测模型中的输入数据,当该轮对话为首轮对话时,该轮对话对应的输入数据为主题问题文本。将每轮对话对应的输入数据以及预设的评测文本输入到预设的评测模型,以得到针对待测模型的测试结果,评测文本记录有对待测模型进行评测的评测规则。
37、通过待测模型输出的回答文本,辅助模型生成下一轮对话输入的数据,再将辅助模型生成的数据输入待测模型得到回答文本,经过多轮的循环往复,便得到了基于第一模型的多轮对话的内容,以便根据形成的待测模型的多轮对话的内容,通过评测模型以及预设的评分文本,对待测模型的多轮对话能力进行精确的评测。
1.一种针对大模型多轮对话能力的测试方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
4.如权利要求3所述的方法,其特征在于,根据保存的测试用例,对所述待测模型进行测试,具体包括:
5.如权利要求4所述的方法,其特征在于,根据所述替换问题文本,重新对所述待测模型进行测试,具体包括:
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
8.一种针对大模型多轮对话能力的测试装置,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。