本申请属于大模型评测,具体而言涉及一种对模型推理能力进行评测的方法、设备及存储介质。
背景技术:
1、随着大语言模型规模的不断扩大,推理能力已成为一项关键能力。为了评估模型的推理能力,研究人员建立了许多基准测试:
2、(1)早期研究主要集中在逻辑推理方面,涵盖了归纳、演绎和溯因等多种推理形式,旨在评估模型是否能够基于给定条件推断答案。
3、(2)数学推理是另一个重要领域。相关基准测试包括文字问题和定理证明等多种形式。这些问题不仅需要推理能力,还要求强大的数学计算能力。
4、(3)基于知识的推理,特别是常识推理,也是一个重要焦点。这些基准测试旨在判断模型是否具备常识知识并能有效利用它进行推理。
5、(4)心智理论推理则更进一步,考察模型是否能理解和整合人类认知的复杂层面,如思想和信念。
6、然而思维链提示(chain-of-thought prompting,cot)方法难以对整个推理过程进行精确的量化评分。同时,传统的推理基准测试往往忽略了对推理过程的评测,难以区分模型是通过猜测得出答案还是真正理解并解决了问题,因此无法准确评估模型的推理能力。
7、本申请提出的解决方案旨在填补这一空白,为大型语言模型的推理能力评估提供更全面、更准确的评测解决方案。
技术实现思路
1、鉴于上述的分析,本发明实施例旨在提供一种对模型推理能力进行评测的方法、设备及存储介质,为大型语言模型的推理能力评估提供更全面、更准确的评测解决方案。
2、本申请的第一方面,提供了一种对模型推理能力进行评测的方法,包括:
3、将构建的模型推理能力评测数据集输入到待评测大语言模型中,获取待评测大语言模型的输出,所述输出至少包括对设定问题的问题答案以及解决所述设定问题过程中的中间推理步骤;
4、将所述问题答案与所述设定问题的参考答案进行比较以确定答案准确性,将所述中间推理步骤与所述设定问题的参考步骤进行比较以确定步骤准确性;
5、基于所述答案准确性和/或所述步骤准确性,生成对所述待评测大语言模型的推理能力进行评测的评测结果;
6、其中,所述模型推理能力评测数据集中的评测任务包括执行类任务和规划类任务,所述执行类任务涉及一个或多个单步推理过程,采用明确的规则操作字符串或状态,每一步的操作结果为可预测的;所述规划类任务涉及多步骤的策略性决策,通过引入中间检查点或状态变量获取问题解决过程中的中间推理步骤。
7、可选地,所述评测任务包括为每类任务预先设计多个问题,所述问题基于多个不同的应用场景构建;所述模型推理能力评测数据集的目标为评估模型的推理能力以及指令遵循能力的结合。
8、可选地,所述模型推理能力评测数据集中的数据具有中文版本数据以及对应的英文版本数据。
9、可选地,所述评测任务中的每种规则类型分为多个子类,每个子类中的问题分为多个难度等级,并且提供用于上下文学习的至少两个不同的示例;
10、其中,所述难度等级通过涉及规则的复杂性以及达到解决设定问题所需的推理步骤数来确定。
11、可选地,所述获取待评测大语言模型的输出包括:
12、获取待评测大语言模型的输出,所述输出为采用约束指令对输出内容进行约束之后生成的结构化格式的输出;
13、对于单个步骤的问题,所述输出为最终的问题答案的字符串列表;
14、对于涉及多个步骤或复杂推理的问题,所述输出为问题答案的字符串列表以及描述每一步问题解决过程的字符串列表。
15、可选地,所述基于所述答案准确性和/或所述步骤准确性,生成对所述待评测大语言模型的推理能力进行评测的评测结果包括:
16、基于答案准确率、步骤准确率、答案与步骤准确率三个指标,生成对所述待评测模型的推理能力进行评测的评测结果;
17、其中,所述答案准确率用来评估每道问题答案的正确性,每个问题答案的评估结果为1表示答案正确,每个问题答案的评估结果为0表示答案错误;
18、步骤准确率用来评估中间推理步骤的正确性,依据待评测大语言模型输出的中间推理步骤与参考步骤在字符级别相似度的百分比进行确定;
19、答案与步骤准确率用于评估答案和中间推理步骤的总体准确性,计算方式为结合答案准确率和步骤准确率的逻辑‘与’运算,在答案准确率和步骤准确率均为满分的时候,对应的答案与步骤准确率为满分,其他情况则为零分。
20、可选地,基于所述答案准确性和/或所述步骤准确性,生成对所述待评测大语言模型的推理能力进行评测的评测结果包括:
21、基于答案准确率、步骤准确率、答案与步骤准确率三个指标,并结合两个错误指标:指令遵循错误率、格式转换错误率,以及一个总体正确率指标,所有的六个指标用来一起表示所述待评测大语言模型的推理能力进行评测的评测结果;
22、其中,所述指令遵循错误率表示所有评测数据中待评测大语言模型无法正确遵循指令生成答案的比例,所述格式转换错误率表示无法在生成答案中按照正确的格式输出的比例;
23、所述总体正确率表示所有评测数据中待评测大语言模型能够正确指令遵循并进行正确的格式转换前提下,答案与步骤的总体准确性,即所述答案与步骤准确率除以能够正确指令遵循并进行正确的格式转换的题目数。本申请的第二方面,提供了一种对模型推理能力进行评测的设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现根据上述任一种所述的对模型推理能力进行评测的方法。
24、本申请的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任一种所述的对模型推理能力进行评测的方法。
25、本申请提供的对模型推理能力进行评测的方法、设备及存储介质,通过同时评估答案准确性和推理过程的准确性,提供对模型推理能力的全面评估。这样,不仅仅考察模型最终输出的正确性,还能评估模型在推理过程中是否遵循了正确的逻辑和规则,提高了评测的准确性和可靠性。该方法可以有效区分不同模型在解决复杂问题时的表现差异,尤其是在多步骤推理任务中,可以更好地评估其在复杂任务中的表现。并且,通过执行类任务的评估,可以测试模型在明确规则下的执行能力;通过规划类任务的评估,可以测试模型在更复杂环境中的预测和规划能力;有效结合逻辑推理与指令遵循能力。本申请提供的方案对推理过程进行精确量化评分,提供了对模型推理能力更全面、更深入的评测。
1.一种对模型推理能力进行评测的方法,其特征在于,包括:
2.根据权利要求1所述的对模型推理能力进行评测的方法,其特征在于,所述评测任务包括为每类任务预先设计多个问题,所述问题基于多个不同的应用场景构建;所述模型推理能力评测数据集的目标为评估模型的推理能力以及指令遵循能力的结合。
3.根据权利要求1所述的对模型推理能力进行评测的方法,其特征在于,所述模型推理能力评测数据集中的数据具有中文版本数据以及对应的英文版本数据。
4.根据权利要求1所述的对模型推理能力进行评测的方法,其特征在于,所述评测任务中的每种规则类型分为多个子类,每个子类中的问题分为多个难度等级,并且提供用于上下文学习的至少两个不同的示例;
5.根据权利要求1所述的对模型推理能力进行评测的方法,其特征在于,所述获取待评测大语言模型的输出包括:
6.根据权利要求1至5任一项所述的对模型推理能力进行评测的方法,其特征在于,所述基于所述答案准确性和/或所述步骤准确性,生成对所述待评测大语言模型的推理能力进行评测的评测结果包括:
7.根据权利要求6所述的对模型推理能力进行评测的方法,其特征在于,基于所述答案准确性和/或所述步骤准确性,生成对所述待评测大语言模型的推理能力进行评测的评测结果包括:
8.一种对模型推理能力进行评测的设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现根据权利要求1-7任一项所述的对模型推理能力进行评测的方法。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-7任一项所述的对模型推理能力进行评测的方法。
