1.本发明涉及机器学习和数据挖掘技术领域,具体涉及一种基于特征间关系合成少数类样本的不平衡数据处理方法。
背景技术:
2.随着医疗、安全、互联网和金融等许多大规模、复杂和网络化系统中数据可用性的不断扩大,如何对数据进行智能化处理,提取数据中有价值信息已成为理论和应用的研究热点。虽然现有的知识发现和数据工程技术已经在许多现实世界的应用中取得了巨大的成功,但从不平衡数据中学习的问题仍是一个相对困难的挑战,不平衡数据在不同生活领域中是一种普遍的现象,错分少数类的代价极其昂贵,已经吸引了学术界和工业界越来越多的关注。不平衡学习是指原始数据集中存在严重的类分布失衡问题,严重影响了大多数标准机器分类算法的性能。在不平衡数据集中,只有很小一部分样本的数据被称为少数类,而代表良好的负类被称为多数类。在这种情况下,标准分类器往往会被多数类样本影响,忽略少数类样本,其性能并不令人满意。
3.在处理不平衡数据集的预测问题时,传统的分类器倾向于将少数类的样本误分为多数类,以提高整体样本的分类准确率,比如数据集中90%的样本为多数类, 10%的样本为少数类,分类器倾向于将10%的少数类样本全部预测为多数类,则整体预测准确率可高达90%,但这些典型分类器对少数类的识别率很差。
4.因此,数据分布不平衡的问题引起了众多研究者的关注,并提出了处理不平衡数据的多种方法,主要包括以下三个层面:数据重采样层面,特征降维层面,代价敏感集成分类层面等;而数据重采样方法能直接处理数据不平衡的问题且此方法易于实现,因此,将其作为处理不平衡数据中应用最广泛的方法之一。但在大多数情况下,在进行过采样或欠采样时,并没有考虑底层数据特征间的关系,过采样可能导致过拟合问题,而欠采样可能会丢弃信息量较大样本。
技术实现要素:
5.有鉴于此,本发明针对传统采样算法处理不平衡数据时的不足,提供一种基于特征间关系合成少数类样本的不平衡数据处理方法。
6.为解决现有技术存在的问题,本发明所采用的技术方案为:基于特征间关系合成少数类样本的不平衡数据处理方法,其特征在于:步骤为:
7.1)多目标优化选择最优pareto前沿特征
8.1.1)令maxs(c)=(f(d,c),g(d,c),a(d,c),p(c))为待优化的多目标函数,同时优化四个评价指标;
9.1.2)初始化种群作为一个一维向量,元素由0、1组成;
10.1.3)种群变异:以的概率随机翻转c中的任一个元素,生成方案c
′
;
11.1.4)分类器评价适应度值,如果在四个评价指标上,c
′
都占优于c,则更新pareto前沿个体,若c
′
其中一个目标优于c的一个目标,而其余的目标都劣于c的目标,则他们都不满足任一方占优于另一方的情况,那么将这两个解决方案继续加入父代种群中,进行变异操作;
12.1.5)更新pareto前沿个体,重复以上步骤,直到达到最大迭代次数;
13.1.6)输出n组pareto前沿特征;
14.2)pareto前沿特征进行重采样;在生成新样本的同时,使用提出的样本评价指标进行筛选样本;
15.2.1)输入n组pareto前沿特征;
16.2.2)建立n个xgboost回归模型;
17.2.3)n个模型预测新的特征值,加入原始少数类样本中;
18.2.4)合成最终n个平衡样本;
19.3)使用评价新生成样本,合成平衡样本,使用多数投票集成输出最终的分类结果
20.3.1)n个平衡样本分别训练一个xgboost基分类器;
21.3.2)多数投票方法集成多个基分类器,输出最终分类结果。
22.与现有技术相比,本发明包括以下有益效果:
23.1)本发明基于特征关系进行过采样的算法(bfr)综合考虑了特征选择与采样技术对不平衡数据的影响,通过基于pareto的多目标特征选择方法保留不平衡数据集的关键区分特征,通过xgboost回归模型捕获少数类样本关键特征之间的关系,并根据这种关系预测新的样本,为了对生成的新样本进行质量评价。
24.2)本发明有效提高了auc值、f_score值以及g_mean值三个评价指标的大小,且提出的基于欧式距离的样本质量评价指标dis最高时,不平衡数据的分类结果也达到最高,验证了评价指标dis的有效性。
25.3)本发明考虑了少数类的全局特征关系进行采样,能够解决样本不平衡问题,且具有降维,提高分类精度等优点。
附图说明
26.图1为本发明实施例中基于特征关系进行过采样算法(bfr)的框架图;
27.图2为本发明实施例中特征采样方法的具体实施图;
28.图3为本发明实施例中分类结果的混淆矩阵图;
29.图4为本发明实施例中多数投票集成的算法图;
30.图5为本发明实施例中各个数据集下的算法稳定性结果图。
具体实施方式
31.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
32.本发明一种基于特征间关系合成少数类样本的不平衡数据处理方法,步骤为:
33.1)多目标优化选择最优pareto前沿特征
34.1.1)令maxs(c)=(f(d,c),g(d,c),a(d,c),p(c))为待优化的多目标函数,同时优化四个评价指标,既对数据进行了降维处理,同时又提高了分类预测的准确性;
35.1.2)初始化种群作为一个一维向量,元素由0、1组成;
36.1.3)种群变异:以的概率随机翻转c中的任一个元素,生成方案c
′
;
37.1.4)分类器评价适应度值,如果在四个评价指标上,c
′
都占优于c,则更新pareto前沿个体,若c
′
其中一个目标优于c的一个目标,而其余的目标都劣于c的目标,则他们都不满足任一方占优于另一方的情况,那么将这两个解决方案继续加入父代种群中,进行变异操作;
38.1.5)更新pareto前沿个体,重复以上步骤,直到达到最大迭代次数;
39.1.6)输出n组pareto前沿特征;
40.2)pareto前沿特征进行重采样;在生成新样本的同时,使用提出的样本评价指标进行筛选样本;
41.2.1)输入n组pareto前沿特征;
42.2.2)建立n个xgboost回归模型;
43.2.3)n个模型预测新的特征值,加入原始少数类样本中;
44.2.4)合成最终n个平衡样本;
45.3)使用评价新生成样本,合成平衡样本,使用多数投票集成输出最终的分类结果
46.3.1)n个平衡样本分别训练一个xgboost基分类器;
47.3.2)多数投票方法集成多个基分类器,输出最终分类结果。
48.实施例:
49.一种基于特征间关系合成少数类样本的不平衡数据处理方法,如图1所示,具体包括以下步骤:
50.1)采用基于pareto的多目标特征选择算法,选择多个目标值都较高的 pareto特征。
51.1.1)初始化种群,设定种群迭代数为1000,以glass数据集为例,glass 数据一共有9个特征,不平衡比例为3.18,在多目标优化过程中,以 maxs(c)=(f(d,c),g(d,c),a(d,c),p(c))为目标函数,共有4个目标值,f(d,c)为所选特征集在不平衡数据集d上的f_score值的大小,g(d,c)为所选特征集在不平衡数据集d上的g_mean值的大小,a(d,c)为所选特征集在不平衡数据集d 上的auc值的大小,p(c)代表所选用特征的数量。
52.1.2)在优化时,不断生成新的个体,使用目标函数进行评价,更新pareto 前沿个体,重复以上步骤,直到达到最大迭代次数,最终输出n组pareto前沿特征。glass数据集经特征选择后,共有三组pareto前沿特征,分别为(0,0, 0,1,1,1,0,0,0),(0,0,0,1,0,1,0,0,0),(0,0,0,1,1,1, 1,0,0),1代表选中的特征,0代表未选中的特征。
53.2)对pareto特征组的少数类样本进行过采样。
54.2.1)假设有一组pareto前沿特征,为f1—f5,在建立xgboost回归模型时,使用f1当作训练数据的标签,f2—f5当作训练特征,训练出一个回归模型 model1,同样地,使用f2当作训练数据的标签,f1,f3—f5当作训练特征,训练出一个回归模型model2,同理,f3、f4、f5分别当作训练标签,训练出回归模型model3、model4、model5,此时训练完成。
55.2.2)建立好的回归模型便可发现特征之间存在的某种关系,再使用训练好的回归模型model1—model5,预测新的特征值f1’—f5’,f1’—f5’就是采样完成的一组新样本,新样本根据少数类样本的特征关系进行合成,因此合成的新样本与原始少数类样本具有高度的样本分布相似性,如图2所示。
56.3)新生成的少数类样本与原始样本合并,得到n个平衡样本,n个平衡样本使用多数投票集成得出最后的分类结果,如图4所示。
57.本发明提出了一种新的基于特征关系进行采样的过采样算法,算法在增加少数类样本的同时,捕获了少数类数据间的特征关系,设计了一种评价新生成样本的指标,对新生成的样本进行评价并筛选,最后得到最具有代表性的数据样本点。
58.本发明设计了一个基于欧式距离计算样本质量的评价指标 dis=(1-cnew_cmin+cnew_cmaj+pnew_cmin)/3。且样本质量评价指标dis 最高时,不平衡数据的分类结果也达到最高,验证了评价指标dis的有效性。
59.本发明使用6个公共uci数据集进行实验,并与6种采样方法进行了比较,实验结果表明了该算法分类效果的有效性及样本质量评价指标dis的可行性。
60.本发明在对少数类数据采样时,面对高维且具有冗余特征的数据,冗余特征会影响采样算法的性能,合成的数据并不具有较好的代表性,因此,在特征重采样前,引入基于多目标的pareto前沿特征,使用auc值,f_score值,g_mean 值三个评价指标作为适应度函数,适应度函数使用混淆矩阵来计算,如图3所示,通过不断的迭代优化,选出三个评价指标都较高的pareto前沿特征,再对少数类样本的pareto前沿特征进行特征采样,与每组pareto前沿特征一一对应,得到多个新生成的少数类样本,将新生成的样本加入到原始的数据集中,合成多个平衡样本集。每个平衡样本集分别训练一个xgboost基分类器,最终将基分类器通过投票表决的方式,得到最终的分类结果。
61.在实验中,为了能直观地展示30次重复实验下,本文算法在6个数据集上分类结果的分布情况,使用箱图来反映分类结果的稳定性,如图5所示。
62.本发明的内容不限于实施例所列举,本领域普通技术人员通过阅读本发明说明书而对本发明技术方案采取的任何等效的变换,均为本发明的权利要求所涵盖。
技术特征:
1.基于特征间关系合成少数类样本的不平衡数据处理方法,其特征在于:步骤为:1)多目标优化选择最优pareto前沿特征1.1)令maxs(c)=(f(d,c),g(d,c),a(d,c),p(c))为待优化的多目标函数,同时优化四个评价指标;1.2)初始化种群作为一个一维向量,元素由0、1组成;1.3)种群变异:以的概率随机翻转c中的任一个元素,生成方案c';1.4)分类器评价适应度值,如果在四个评价指标上,c
′
都占优于c,则更新pareto前沿个体,若c
′
其中一个目标优于c的一个目标,而其余的目标都劣于c的目标,则他们都不满足任一方占优于另一方的情况,那么将这两个解决方案继续加入父代种群中,进行变异操作;1.5)更新pareto前沿个体,重复以上步骤,直到达到最大迭代次数;1.6)输出n组pareto前沿特征;2)pareto前沿特征进行重采样;在生成新样本的同时,使用提出的样本评价指标进行筛选样本;2.1)输入n组pareto前沿特征;2.2)建立n个xgboost回归模型;2.3)n个模型预测新的特征值,加入原始少数类样本中;2.4)合成最终n个平衡样本;3)使用评价新生成样本,合成平衡样本,使用多数投票集成输出最终的分类结果3.1)n个平衡样本分别训练一个xgboost基分类器;3.2)多数投票方法集成多个基分类器,输出最终分类结果。
技术总结
本发明涉及一种基于特征间关系合成少数类样本的不平衡数据处理方法。其步骤为:首先,在对少数类数据采样时,面对高维且具有冗余特征的数据,冗余特征会影响采样算法的性能,引入基于多目标的pareto前沿特征方法,使用AUC值,F_score值,G_mean值三个评价指标作为适应度函数,通过不断的迭代优化,选出三个评价指标都较高的pareto前沿特征;接着再对少数类样本的pareto前沿特征进行特征采样,使用XGBoost回归捕获特征间的关系,在生成样本的同时考虑新样本的质量问题,为了评价新样本的质量,设计了一个基于欧氏距离计算样本质量的评价指标DIS。最后将新生成的样本加入到原始的数据集中,合成多个平衡样本集,使用多数投票集成输出最终的分类结果。票集成输出最终的分类结果。票集成输出最终的分类结果。
技术研发人员:潘晓英 贾蓉 张国鑫 王昊
受保护的技术使用者:西安邮电大学
技术研发日:2021.09.30
技术公布日:2022/3/8