一种基于CatGAN模型的不平衡电力数据分类分级均衡化方法与流程

本发明属于文本处理算法领域，具体涉及一种基于catgan模型的不平衡电力数据分类分级均衡化方法。

背景技术：

1、在数据分类分级任务中，不平衡数据分类分级问题是一个普遍存在的挑战，尤其在欺诈检测、疾病诊断等实际应用中。不平衡数据指的是在数据集中，某些类别或级别的样本数量显著多于其他类别或级别，这会导致传统分类算法的性能下降，因为算法往往偏向于多数类别而忽略少数类别。为解决不平衡数据分类分级问题，已有多种方法被提出。数据层面的处理方法主要包括重采样技术，如过采样和欠采样。过采样通过复制或合成少数类别样本来增加其数量，而欠采样则通过减少多数类别样本来平衡数据集。然而，这些方法可能引入新的问题，如过采样可能导致数据分布的边缘化，欠采样可能丢失有价值的信息。在算法层面，多种分类算法如决策树、k-最近邻、支持向量机(svm)、朴素贝叶斯以及基于人工神经元的分类算法等被广泛应用。其中，基于神经网络的分类算法因其强大的非线性拟合能力而受到青睐。然而，这些方法通常需要大规模且分布均衡的数据集进行预训练，因此数据不平衡问题仍是其应用的障碍。

2、近年来，类别文本生成模型如基于gan(生成对抗网络)的改进模型被用于生成少数类别样本以缓解数据不平衡问题。然而，这些模型通常包含过多的辅助组件和学习策略，增加了训练难度，并可能导致模型坍缩问题，从而生成的样本数据在多样性和质量上受到限制。

3、综上所述，尽管已有多种方法试图解决不平衡数据分类分级问题，但在保持数据分布、提高样本多样性和质量，以及确保训练过程稳定性等方面仍存在诸多挑战。因此，本专利提出了一种基于catgan模型的不平衡电力数据分类分级均衡化方法，旨在在不偏离原始数据分布的基础上有效改善数据集的平衡性，并解决类别文本生成模型中的训练不稳定和模型坍缩问题。

技术实现思路

1、为了解决上述技术问题，本发明提出了一种基于catgan模型的不平衡电力数据分类分级均衡化方法，该方法有效解决了传统方法在改善不平衡数据的平衡性时，原数据集出现偏离原来的数据分布的问题，同时也克服了大多数类别数据生成模型在训练中的不稳定性以及模式坍缩问题，从而保证了该模型可以自动生成多种可控类别且质量较高的电力数据样本。

2、为了达到上述技术效果，本发明是通过以下技术方案实现的：一种基于catgan模型的不平衡电力数据分类分级均衡化方法，包括以下步骤：

3、s1：数据预处理：对真实电力数据先进行分词操作，并构建相应的词汇表；

4、s2：位置信息编码：位置编码中，首先需要创建一个零矩阵来用于存储位置编码，该张量的形状为[max_len,embedding_dim]，其中max_len表示最大序列长度，embedding_dim表示词嵌入的维度，之后，需要生成位置索引，生成一个0到max_len的一个一维向量，并对其增加一个维度，确保每个索引是单独的一行，然后计算一个衰减因子来让位置编码在较高的维度上的变化更加的平滑，之后在偶数和奇数位置的索引上分别应用正弦以及余弦函数，为每个位置索引生成一个交替的正弦或者余弦值，并将其填充到预定义的编码张量中的指定位置；然后将得到的位置编码张量再添加一个维度，以便于实际的词嵌入进行相加；

5、s3：词嵌入：首先将输入的词汇索引转换为词嵌入向量，转换为词嵌入向量之后，为了防止在训练过程中出现梯度爆炸或者梯度消失的情况，对得到的词嵌入向量进行缩放，然后将得到的词嵌入向量与s2中得到的位置信息编码进行合并，最后将带有位置信息的词嵌入向量输入到transformer编码器中，学习序列中的依赖关系，进行上下文感知的特征提取；

6、s4：构建生成器：所述生成器包括嵌入层，rmc层以及全连接输出层。

7、s5：构建识别器：所述识别器包括嵌入层、卷积层、池化层、高速网络层以及全连接输出层；

8、s6：生成器与识别器的对抗训练以及生成器的进化与变异；包括生成器的预训练阶段，生成器和判别器的对抗训练阶段；

9、s7：最终部署：经过若干轮的对抗训练之后，生成器和识别器的训练趋于一种平衡状态；此时，生成器生成的样本最优，同时将生成的少样本类样本，合并到原来分布不均衡的数据集中，以此来平衡数据集，实现数据集的均衡化，然后再使用合并后的均衡化的数据集去训练分类分级模型，进而提高分类分级模型正确分类分级的能力。

10、进一步的，所述s4中，

11、s4.1：所述嵌入层包括词嵌入和类别嵌入，其中词嵌入词汇索引转换为具有位置信息的嵌入向量，类别嵌入将类别标签转换为嵌入向量，并扩展至与词嵌入相匹配的序列长度，这些嵌入向量被拼接，维度变为[batch_size,seq_len,embedding_dim*2]，作为后续的rmc层输入；

12、s4.2：通过rmc层处理合并词嵌入和类别嵌入的向量，提取序列的特征；其张量维度将由[batch_size,seq_len,embedding_dim*2]转换为[batch_size,seq_len,hidden_dim]；hidden_dim表示rmc层的隐藏单元数；再将rmc层得到的输出张量将作为全连接输出层的输入，再全连接输出层，它将rmc的输出转换为词汇表大小的预测分布，进行最终预测；其维度转换由输入维度[batch_size,seq_len,embedding_dim*2]转换为输出维度[batch_size*seq_len,hidden_dim]；

13、进一步的，所述s5中，

14、s5.1：嵌入层的作用是将输入的独热编码转换为词嵌入向量，其将输入维度为[batch_size,seq_len,vocab_size]的张量转换成维度为[batch_size,1,seq_len,embedding_dim]的张量，其中vocab_size表示词汇表大小；该张量即为卷积层的输入，该层的作用是在嵌入维度上分段并进行卷积操作；

15、s5.2：在卷积层处理完之后，对输入张量执行最大池化操作，减少特征维度，池化后的结果的维度为[batch_size,num_filters,num_rep]，其中num_filters表示每个卷积层中使用的卷积核(或滤波器)的数量，num_rep表示输入嵌入向量在嵌入维度上分割成多少部分；经过池化层之后，该张量到达高速网络层(highway)，该层通过其内部的门控机制允许部分输入直接通过，部分输入经过处理；

16、s5.3：之后经过全连接层，将特征映射到每个序列的得分，最终判别器输出每个样本的独立评分。

17、进一步的，所述s6中，

18、s6.1：在训练阶段，对生成器进行最大似然估计[mle]训练，在经过多个预设的训练周期后，生成器学习产生语法和结构上正确的文本，训练完成之后，保存生成器的状态，作为预训练的初始状态进行加载；生成器完成预训练之后，和判别器一起进入对抗训练循环，包括生成器的进化与变异，判别器的训练与优化，生成器的评估；

19、s6.2：在生成器的训练过程中，加载最佳父代生成器状态，使生成器进行进化变异，变异后的生成器生成假数据让判别器进行评估，然后根据判别器的反馈来更新生成器的参数；有根据温度参数使用标准或带温度调节的两种进化策略；

20、s6.3：在判别器的训练过程中，使用真实数据和生成器产生的假数据训练判别器，并通过优化判别器的参数来提高其在区分真假数据上的准确率；在每一轮对抗训练结束后，评估当前所有生成器的性能，选择表现最好的生成器继续进行训练；

21、s6.4：评估时，调用evaluation方法来评估生成器的性能，并从生成质量以及多样性两方面进行评估，最后合并为一个总得分，综合考虑生成样本的质量与多样性；之后进入一个选择阶段，该阶段会根据得到的评估分数来更新最佳生成器状态；最佳生成器的状态会被保存，用于下一轮训练或最终部署。

22、本发明的有益效果是：

23、本发明提出了一种面向不平衡电力数据分类分级的均衡化方法，用于解决在训练用于电力数据分类分级的大模型时，出现的电力数据在类别以及级别方面，数据分布不平衡的情况；本方法基于catgan模型，除了可以生成更加优质的电力数据样本之外，它还可以自动生成多种可控类别电力数据样本，从而可以解决在训练用于电力数据分类分级的大模型时，在数据集方面出现的数据不平衡而影响模型的训练效果的问题。

24、其次，相较于其它类别文本数据生成模型而言，本发明中的模型去掉了一些辅助组件以及一些学习策略，这极大的减轻了模型在训练中的不稳定性以及模式坍缩问题，从而保证了该模型可以自动生成多种可控类别且质量较高的电力数据样本；然后将这些生成的少数类别类数据加入原来不平衡的数据集中，在缓解了数据集不平衡的情况下，同时克服了其他方法在缓解了数据集不平衡时出现的偏离原来数据分布的情况。

技术特征：

1.一种基于catgan模型的不平衡电力数据分类分级均衡化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于catgan模型的不平衡电力数据分类分级均衡化方法，其特征在于，所述s4中，

3.根据权利要求1所述的一种基于catgan模型的不平衡电力数据分类分级均衡化方法，其特征在于，所述s5中，

4.根据权利要求1所述的一种基于catgan模型的不平衡电力数据分类分级均衡化方法，其特征在于，所述s6中，

技术总结
本发明公开了一种基于CatGAN模型的不平衡电力数据分类分级均衡化方法，用于解决在训练用于电力数据分类分级的大模型时，出现的电力数据在类别以及级别方面，数据分布不平衡的情况。该方法基于CatGAN模型，除了可以生成更加优质的电力数据样本之外，可以自动生成多种可控类别电力数据样本，从而解决在训练用于电力数据分类分级的大模型时，在数据集方面出现的数据不平衡而影响模型的训练效果的问题；不仅可以解决诸如重采样等传统方式在解决数据不平衡问题时，出现的偏离原来数据分布的问题，而且相较于其他类别文本数据生成模型而言，该模型去掉了一些辅助组件以及一些学习策略，保证了该模型可以自动生成多种可控类别且质量较高的电力数据样本。

技术研发人员：张希翔,艾徐华,黄依婷,张丽媛,陈昭利,董贇,蒙琦,银源,廖邓彬,刘凯杰
受保护的技术使用者：广西电网有限责任公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)