本发明涉及数据处理的,具体而言,涉及一种目标标签的筛分方法及装置。
背景技术:
1、随着信息化社会的发展、数据量的快速增加,如何在海量的数据中查找出目标数据是目前研究的热点问题。在相关技术中,公开了利用多标签学习的方案。其中,例如binary relevance,该方法将多标签学习问题转化为“二类分类(binaryclassification)”问题进行求解,将一个多标签问题分解为q个二元分类问题(binaryrelevance利用“一对多(one-vs-rest)”的方式构建二元基分类器),每个类别标签对应一个子问题。在每个子问题中,如果一个样本具有该子问题所对应的类别标签,则确定这个样本为正样本,否则为负样本。又例如ml-knn,该方法将“惰性学习(lazy learning)”算法对k-近邻算法进行改造以适应多标签数据,是用来解决多标签分类问题的懒惰算法,通过使用最大后验规则来确定一个示例与每个标签是否相关联。
2、但是,当采用ml-knn算法对未知样本进行分类时,对于所有的待分类样本,只要它们的k近邻中具有某个类别的样本数目相等,它们就会以相同的概率被划分为这个类别标记,这种方法忽略了不同样本在特征空间中的位置差异。不能有效利用多标记之间的关系,而且还无法处理标记类别数目过大时严重的标记不平衡问题。binary relevance未能考虑标签之间的联系,而导致一定程度上的信息损失。
3、因此,采用相关技术的分类方法存在筛分出的目标标签不够精确的问题。
技术实现思路
1、本发明实施例提供了一种目标标签的筛分方法及装置,以至少解决了相关技术中的分类方法存在筛分出的目标标签不够精确的问题。
2、根据本发明的一个实施例,提供了一种目标标签的筛分方法,包括:
3、基于待预测实例得到一个或者多个历史实例;
4、基于所述历史实例得到对应的标签,其中,所述历史实例与所述标签设置有映射关系;
5、在所述标签为多个的情况下,将所述多个标签组合成标签对;
6、使用标定标签对所述标签对进行划分,得到相关标签集和不相关标签集;
7、基于标签分类器对所述相关标签集内的标签对进行排序,以得到排序结果;
8、按照预设比例确定所述排序结果对应的标签为待预测实例的目标标签。
9、可选地,基于待预测实例得到一个或者多个历史实例,包括:
10、使用至少以下之一的算法基于待预测实例得到一个或者多个历史实例:k-近邻算法、局部敏感哈希算法lsh、近似最近邻算法ann。
11、可选地,在所述标签为多个的情况下,将所述多个标签组合成标签对,包括:
12、将所述多个标签中的每两个所述标签进行自由组合,以得到所述标签对。
13、可选地,使用标定标签对所述标签对进行划分,得到相关标签集和不相关标签集,包括:
14、将所述标签对内的每个所述标签分别与所述标定标签进行比较,以得到所述相关标签集和所述不相关标签集。
15、可选地,基于标签分类器对所述相关标签集内的标签对进行排序,以得到排序结果,包括:
16、获取所述相关标签集内的所述标签对的数量;
17、基于所述标签对的数量确定所述标签分类器的数量;
18、使用所述标签分类器对所述标签对内的所述标签进行排序,以得到所述标签对内的所述标签的排序;
19、汇总所述标签对内的所述标签的排序,以得到所述排序结果。
20、可选地,获取所述相关标签集内的所述标签对的数量之前,包括:
21、将所述相关标签集内的多个标签中的每两个所述标签进行自由组合,以得到新的标签对。
22、根据本发明的另一个实施例,还提供了一种目标标签的筛分装置,包括:预处理模块,用于基于待预测实例得到一个或者多个历史实例;以及,
23、基于所述历史实例得到对应的标签,其中,所述历史实例与所述标签设置有映射关系;以及,
24、在所述标签为多个的情况下,将所述多个标签组合成标签对;
25、排序模块,用于使用标定标签对所述标签对进行划分,得到相关标签集和不相关标签集;以及,
26、基于标签分类器对所述相关标签集内的标签对进行排序,以得到排序结果;
27、确定模块,用于按照预设比例确定所述排序结果对应的标签为待预测实例的目标标签。
28、可选地,该装置还用于:使用至少以下之一的算法基于待预测实例得到一个或者多个历史实例:k-近邻算法、局部敏感哈希算法lsh、近似最近邻算法ann。
29、可选地,该装置还用于:将所述多个标签中的每两个所述标签进行自由组合,以得到所述标签对。
30、可选地,该装置还用于:将所述标签对内的每个所述标签分别与所述标定标签进行比较,以得到所述相关标签集和所述不相关标签集。
31、可选地,该装置还用于:获取所述相关标签集内的所述标签对的数量;
32、基于所述标签对的数量确定所述标签分类器的数量;
33、使用所述标签分类器对所述标签对内的所述标签进行排序,以得到所述标签对内的所述标签的排序;
34、汇总所述标签对内的所述标签的排序,以得到所述排序结果。
35、可选地,该装置还用于:将所述相关标签集内的多个标签中的每两个所述标签进行自由组合,以得到新的标签对。
36、根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器运行时执行上述任一项方法实施例中的步骤。
37、根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
38、根据本发明的又一个实施例,还提供了一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现如上述任一项方法实施例中的步骤。
39、通过本发明实施例,由于采用结合历史数据、考虑标签之间的关联性、对标签对进行有效划分和排序,以及引入预设比例来确定目标标签的方案,有效地解决了相关技术中多标签分类方法筛分目标标签不够精确的问题。这种方法不仅提高了分类的准确性,而且通过灵活的预设比例,还能够适应不同的应用需求。
1.一种目标标签的筛分方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于待预测实例得到一个或者多个历史实例,包括:
3.根据权利要求1所述的方法,其特征在于,在所述标签为多个的情况下,将所述多个标签组合成标签对,包括:
4.根据权利要求1所述的方法,其特征在于,使用标定标签对所述标签对进行划分,得到相关标签集和不相关标签集,包括:
5.根据权利要求1所述的方法,其特征在于,基于标签分类器对所述相关标签集内的标签对进行排序,以得到排序结果,包括:
6.根据权利要求5所述的方法,其特征在于,获取所述相关标签集内的所述标签对的数量之前,包括:
7.一种目标标签的筛分装置,其特征在于,包括:
8.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器运行时执行所述权利要求1至6任一项中所述的方法的步骤。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。