示例数据扩增方法、装置、设备及介质与流程

本申请涉及数据处理，特别是涉及一种示例数据扩增方法、装置、电子设备及存储介质。

背景技术：

1、大语言模型(large language models，llms)是一种基于深度学习的自然语言处理模型，具备较强的回答单跳推理问题的能力，通过在大量文本数据上进行预训练来学习语言的规律统计和语义表示，从而在后续任务中理解和生成文本。

2、将llms模型用于复杂长文本分析，可以实现对剧情、剧本及文学等产物的解构、分析、评价等任务，这种情况下，就需要llms模型解决更多维度更为复杂的问题。但是，目前llms模型对于耦合关联的多跳问题的解决能力还不成熟，难以对一系列的复杂问题进行解耦，导致llms模型对复杂长文本的分析拆解能力存在较大的缺陷。

3、现有技术中，可以通过对提示词进行优化，尽量“挖掘”llms模型的潜在能力，以使llms模型可以对复杂问题进行解耦。比如，可以在输入llms模型的提示词中添加示例数据，示例数据用于为llms模型的当前任务提供范例，以使llms模型基于示例数据的提示，生成当前任务的输出文本。

4、但是，示例数据往往需要人工筛选，一方面，不同领域的示例数据需要具有不同领域背景知识及经验的从业人员进行筛选，筛选过程中，需要对llms模型每个处理环节的数据进行分析评估，其中包括大量且复杂的文本数据，时间成本和人力成本较高；另一方面，同一个人对示例数据的筛选往往具有较强的主观性，而不同的人的示例编写的标准又很难统一，导致示例数据的可用性较低。

技术实现思路

1、本申请实施例的目的是提供一种示例数据扩增方法、装置、设备和存储介质，能够解决现有技术中，获取示例数据的人力成本及时间成本较高，且示例数据的可用性较低等问题。

2、第一方面，本申请实施例提供了一种示例数据扩增方法，包括：

3、获取目标角色设定信息及示例数据；所述目标角色设定信息用于对预设大语言模型进行身份设定，所述示例数据中包括示例角色设定信息及对应的示例问题文本，所述示例问题文本为基于所述示例角色设定信息进行提问的文本；

4、通过所述预设大语言模型学习所述示例角色设定信息及所述示例问题文本之间的第一映射关系，并基于所述第一映射关系生成所述目标角色设定信息对应的目标问题文本；

5、获取待分析文本，通过所述预设大语言模型基于所述目标问题文本对所述待分析文本进行提问，得到所述目标问题文本对应的目标回答文本；

6、对所述目标问题文本及对应的所述目标回答文本进行评估，得到目标评估结果；

7、在所述目标评估结果满足预设评估合格条件的情况下，根据所述目标角色设定信息及所述目标问题文本，对所述示例数据进行更新。

8、第二方面，本申请实施例提供了一种示例数据扩增装置，其特征在于，包括：

9、获取模块，用于获取目标角色设定信息及示例数据；所述目标角色设定信息用于对预设大语言模型进行身份设定，所述示例数据中包括示例角色设定信息及对应的示例问题文本，所述示例问题文本为基于所述示例角色设定信息进行提问的文本；

10、生成模块，用于通过所述预设大语言模型学习所述示例角色设定信息及所述示例问题文本之间的第一映射关系，并基于所述第一映射关系确定所述目标角色设定信息对应的目标问题文本；

11、分析模块，用于获取待分析文本，通过所述预设大语言模型基于所述目标问题文本对所述待分析文本进行提问，得到所述目标问题文本对应的目标回答文本；

12、评估模块，用于对所述目标问题文本及对应的所述目标回答文本进行评估，得到评估文本及对应的目标评估结果；

13、更新模块，用于在所述目标评估结果满足预设评估合格条件的情况下，根据所述目标角色设定信息及所述目标问题文本，对所述示例数据进行更新。

14、第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

15、第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

16、第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

17、第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

18、在本实施例中，获取目标角色设定信息及示例数据；目标角色设定信息用于对预设大语言模型进行身份设定，示例数据中包括示例角色设定信息及对应的示例问题文本，示例问题文本为基于示例角色设定信息进行提问的文本；通过预设大语言模型学习示例角色设定信息及示例问题文本之间的第一映射关系，并基于第一映射关系确定目标角色设定信息对应的目标问题文本；获取待分析文本，通过预设大语言模型基于目标问题文本对待分析文本进行提问，得到目标问题文本对应的目标回答文本；对目标问题文本及对应的目标回答文本进行评估，得到目标评估结果；在目标评估结果满足预设评估合格条件的情况下，根据目标角色设定信息及目标问题文本，对示例数据进行更新。

19、这样，通过预设大语言模型对示例数据的学习，可以根据目标角色设定信息确定目标问题文本，并根据目标问题文本对待分析文本进行分析，得到目标回答文本，其中，确定目标问题文本的过程中会以示例角色设定信息及对应的示例问题文本为示例，以提高预设大语言模型对待分析文本进行自问自答的能力。进一步地，在对预设大语言模型输出的目标问题文本及对应的目标回答文本进行评估之后，如果目标评估结果满足预设评估合格条件，那么，表明待分析文本的内容符合需求，并且预设大语言模型可以对待分析文本进行合理的分析，得到符合需求的回答，因此，基于自问自答过程中预设大语言模型的输入及输出，可以对示例数据进行更新。当系统流程再次开始时，预设大语言模型所使用的示例数据中就增加了本次流程中目标角色设定信息及目标问题文本，而且，由于新增至示例数据中的目标角色设定信息及目标问题文本是在本次系统流程中积累下的，因此其格式及内容都符合预设大语言模型各环节的要求，从而可以达到示例数据的告高质量及一致性，也就是说，系统可以自动扩张出大量优秀的示例数据，以减少获取示例数据的人力成本及时间成本，同时提高示例数据的可用性，进而有利于预设大语言模型的文本分析效果。

技术特征：

1.一种示例数据扩增方法，其特征在于，包括：

2.根据权利要求1所述的示例数据扩增方法，其特征在于，所述示例数据包括第一示例数据及第二示例数据，所述第一示例数据中包括示例角色设定信息及对应的示例背景信息，所述第二示例数据中包括所述示例背景信息及对应的示例问题文本；

3.根据权利要求2所述的示例数据扩增方法，其特征在于，所述在所述目标评估结果满足预设评估合格条件的情况下，根据所述目标角色设定信息及所述目标问题文本，对所述示例数据进行更新，包括：

4.根据权利要求1所述的示例数据扩增方法，其特征在于，所述通过所述预设大语言模型基于所述目标问题文本对所述待分析文本进行提问，得到所述目标问题文本对应的目标回答文本，包括：

5.根据权利要求4所述的示例数据扩增方法，其特征在于，在所述目标评估结果满足预设评估合格条件的情况下，所述方法还包括：

6.根据权利要求1所述的示例数据扩增方法，其特征在于，所述对所述目标问题文本及对应的所述目标回答文本进行评估，得到目标评估结果，包括：

7.根据权利要求6所述的示例数据扩增方法，其特征在于，在所述目标评估结果满足预设评估合格条件的情况下，所述方法还包括：

8.根据权利要求1所述的示例数据扩增方法，其特征在于，所述目标评估结果包括目标评估分值，所述在所述目标评估结果满足预设评估合格条件的情况下，根据所述目标角色设定信息及所述目标问题文本，对所述示例数据进行更新，包括：

9.根据权利要求1所述的示例数据扩增方法，其特征在于，在所述目标评估结果不满足预设评估合格条件的情况下，所述方法还包括：

10.根据权利要求9所述的示例数据扩增方法，其特征在于，所述返回所述通过所述预设大语言模型学习所述示例角色设定信息及所述示例问题文本之间的第一映射关系，包括：

11.根据权利要求10所述的示例数据扩增方法，其特征在于，在所述提问次数大于或等于所述预设次数的情况下，所述方法还包括：

12.根据权利要求1所述的示例数据扩增方法，其特征在于，所述获取目标角色设定信息及示例数据，包括：

13.根据权利要求12所述的示例数据扩增方法，其特征在于，所述选择匹配所述预设大语言模型的上下文窗口长度的所述候选示例数据，作为示例数据，包括：

14.一种示例数据扩增装置，其特征在于，包括：

15.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-13任一项所述的示例数据扩增方法的步骤。

16.一种电子设备，其特征在于，包括：

17.一种计算机程序产品，其特征在于，所述程序产品被存储在存储介质中，所述程序产品被至少一个处理器执行以实现如权利要求1至13中任一项所述的示例数据扩增方法。

技术总结
本申请提供了一种示例数据扩增方法、装置、电子设备和存储介质，包括：获取目标角色设定信息及示例数据；通过预设大语言模型学习示例角色设定信息及示例问题文本之间的第一映射关系，并基于第一映射关系确定目标角色设定信息对应的目标问题文本；获取待分析文本，通过预设大语言模型基于目标问题文本对待分析文本进行提问，得到目标问题文本对应的目标回答文本；对目标问题文本及对应的目标回答文本进行评估，得到目标评估结果；在目标评估结果满足预设评估合格条件的情况下，根据目标角色设定信息及目标问题文本，对示例数据进行更新。以减少获取示例数据的人力成本及时间成本，同时提高示例数据的可用性。

技术研发人员：乔勇
受保护的技术使用者：北京奇艺世纪科技有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)