一种模型的训练方法、文本处理方法、装置、介质及设备与流程

专利查询6月前 64

本公开实施例涉及数据处理技术，尤其涉及一种模型的训练方法、文本处理方法、装置、介质及设备。

背景技术：

1、词云是一种常用语直观展示一组文本中高频词汇的技术，在不同的业务场景中可通过词云方式展示该场景下的关键信息。

2、词云中的词汇是通过对文本分词后通过统计词频的方式，表征词汇在文本中的重要程度，以筛选得到高频词汇。但是由于统计词频的方式中会引入无意义词，导致筛选得到的高频词汇无法保留文本信息的语义。

技术实现思路

1、本公开提供一种模型的训练方法、文本处理方法、装置、介质及设备，以实现训练得到一分词处理模型，通过分词处理模型能够得到保留原文本语义的分词。

2、第一方面，本公开实施例提供了一种模型的训练方法，包括：

3、获取样本数据，对所述样本数据进行分词处理得到多个初始分词；

4、对所述初始分词进行分词组合得到多个候选词，基于训练过程中的分词处理模型对所述多个候选词进行筛选，得到预测候选词；

5、确定所述预测候选词与所述样本数据的语义距离，基于所述语义距离确定的损失函数对所述分词处理模型进行模型参数的更新；

6、在模型参数更新后的分词处理模型满足训练结果条件的情况下，得到训练好的分词处理模型。

7、第二方面，本公开实施例还提供了一种文本处理方法，包括：

8、获取待处理文本数据，对所述待处理文本数据进行分词处理得到多个初始分词；

9、对所述初始分词进行分词组合得到多个候选词，基于训练好的分词处理模型对所述多个候选词进行筛选，得到所述待处理文本数据的预测词。

10、第三方面，本公开实施例还提供了一种模型的训练装置，包括：

11、分词处理模块，用于获取样本数据，对所述样本数据进行分词处理得到多个初始分词；

12、候选词筛选模块，用于对所述初始分词进行分词组合得到多个候选词，基于训练过程中的分词处理模型对所述多个候选词进行筛选，得到预测候选词；

13、模型参数更新模块，用于确定所述预测候选词与所述样本数据的语义距离，基于所述语义距离确定的损失函数对所述分词处理模型进行模型参数的更新；在模型参数更新后的分词处理模型满足训练结果条件的情况下，得到训练好的分词处理模型。

14、第四方面，本公开实施例还提供了一种文本处理装置，包括：

15、基础分词处理模块，用于获取待处理文本数据，对所述待处理文本数据进行分词处理得到多个初始分词；

16、分词筛选模块，用于对所述初始分词进行分词组合得到多个候选词，基于训练好的分词处理模型对所述多个候选词进行筛选，得到所述待处理文本数据的预测词。

17、第五方面，本公开实施例还提供了一种电子设备，所述电子设备包括：

18、一个或多个处理器；

19、存储装置，用于存储一个或多个程序，

20、当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开任意实施例提供的模型的训练方法，和/或，文本处理方法。

21、第六方面，本公开实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本公开任意实施例提供的模型的训练方法，和/或，文本处理方法。

22、本公开实施例提供的实施例，在分词处理模型的训练过程中，通过对样本数据的细粒度分词得到的初始分词进行分词组合，得到不同粒度的候选词，提高候选词的全面性，避免单一粒度分词。通过分词处理模型在多个候选词中筛选得到预测候选词，并基于分词处理模型和样本数据的语义距离得到损失函数，对分词处理模型进行训练，可使得分词处理模型筛选的预测候选词，能够在语义维度上不断趋向于样本数据，相应的，训练好的分词处理模型能够筛选得到可以保留样本数据原始语义的预测候选词，提高分词处理模型的关键词提取性能。

技术特征：

1.一种模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述初始分词进行分词组合得到多个候选词，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于多个组合粒度对所述初始分词进行分词组合，得到多个组合粒度的候选词，包括：

4.根据权利要求1所述的方法，其特征在于，所述分词处理模型包括词处理模块和评价模块；

5.根据权利要求4所述的方法，其特征在于，所述词处理模块包括编码单元和上下文处理单元；

6.根据权利要求1所述的方法，其特征在于，所述确定所述预测候选词与所述样本数据的语义距离，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于多个所述预测候选词的词向量得到候选特征信息，包括：

8.根据权利要求1-7任一所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，分别对所述预测候选词与所述样本数据进行分类处理，得到所述预测候选词的类别信息与所述样本数据的类别信息，包括：

10.根据权利要求8所述的方法，其特征在于，分别对所述预测候选词与所述样本数据进行分类处理，得到所述预测候选词的类别信息与所述样本数据的类别信息，包括：

11.一种文本处理方法，其特征在于，包括：

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.一种模型的训练装置，其特征在于，包括：

14.一种文本处理装置，其特征在于，包括：

15.一种电子设备，其特征在于，所述电子设备包括：

16.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的模型的训练方法，和/或，权利要求11或12所述的文本处理方法。

技术总结
本公开实施例提供了一种模型的训练方法、文本处理方法、装置、介质及设备。其中模型的训练方法包括：获取样本数据，对所述样本数据进行分词处理得到多个初始分词；对所述初始分词进行分词组合得到多个候选词，基于训练过程中的分词处理模型对所述多个候选词进行筛选，得到预测候选词；确定所述预测候选词与所述样本数据的语义距离，基于所述语义距离确定的损失函数对所述分词处理模型进行模型参数的更新；在模型参数更新后的分词处理模型满足训练结果条件的情况下，得到训练好的分词处理模型。本公开实施例训练得到的分词处理模型能够筛选得到可以保留样本数据原始语义的预测候选词，提高分词处理模型的关键词提取性能。

技术研发人员：严骅,邵杰,梁涛,马国俊
受保护的技术使用者：北京字跳网络技术有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)