本发明属于光伏电站运维监控,尤其涉及一种面向多时空光伏电站故障数据无监督融合方法。
背景技术:
1、光伏电站是光电能源的主要生产者,但光伏受各种要素的影响,出力变化很大,包括地域、季节、辐射度等参数等等。同时,影响其正常运行的参数也有很多,包括天气、积灰、水气、环境等,所以它的故障分析是一个多源数据融合的问题,并且通常需要多年的数据积累。能源集团在不同环境下建设多座光伏电站,如沙漠、戈壁和企业屋顶。由于建立时间、地点、环境的差异,产生的数据分布存在偏移。面对这种挑战,行业人员通常利用前期已经建设运行的不同条件(沙漠、戈壁)、不同数据量积累的多个光伏电站(源域)的有标签数据(运维人员人为标签的),去对不同条件(企业屋顶)的没有标签数据的新建光伏电站(目标域)的运行数据进行分析,得到其故障类型,从从而辅助维护工作。理论上,这是一种无监督的多源域数据融合问题,旨在寻找源域和目标域中样本、任务或者模型之间共有的相似性,并以此为知识进行学习,实现将源域知识迁移到目标域的目的,核心是减小源域和目标域的分布差异,克服域偏移,重点在于充分挖掘并利用源域和目标域之间共同的域不变特性,使得从源域中提取到的特征信息发挥更大作用,进而消除或减少域偏移的影响,并从已标记的源域学习到一个能很好地推广到不同但相关的目标域的模型,从而实现对目标样本的准确预测。
2、在这个领域中,论文《deep cocktail network:multi-source unsuperiviseddomain adaptation with category shift》提出的深度鸡尾酒网络,是解决此类问题的经典算法之一。但是该算法存在几个局限性:一是它没有考虑数据对齐,这使得每次计算都是从一个随机的方式开始,使得计算量变大;二是它没有考虑各个源的样本的数量,不同数量的样本会使得学习过程中,样本多的源占据有更大的权重,影响力更大;三是它没有考虑目标域样本与源域样本进行对齐,这使得在学习结束的时候,也是一个随机的方式结束,从而给结果带来一定的随机性。针对以上问题,本发明提出一种面向多时空光伏电站故障数据无监督融合方法。
技术实现思路
1、本发明的目的在于提供一种面向多时空光伏电站故障数据无监督融合方法,旨在解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:
3、一种面向多时空光伏电站故障数据无监督融合方法,包括以下步骤:
4、步骤1、数据对齐:将多个光伏电站故障数据源的数据根据已学习的潜在特征空间中源域的类重构对齐;在学习空间中,将所有属于不同源域但共享一个公共类标签的样本紧密放置,具体过程为:统计从各个源的数据样本,用表示从每个个源域中获得的样本,其中x是光伏电站的状态数据;各个源的数据样本有共同的故障类标签即其中y是光伏电站的故障标签,bi是输出的故障分类编号;将各个源的ξi集中在一起,按照先共同故障类标签的顺序进行排序,然后在共同故障类标签的样本内,按照源的顺序进行摆放,实现数据对齐;
5、步骤2、数据扩充:进行数据量平衡,数据量的平衡具体过程为:对每个故障类标签即中的源中的样本,统计所有源1~k中,最大的数量maxx(bi),然后将其他的k-1个源的该故障类的样本数量扩充到maxx(bi)的大小;
6、步骤3、数据融合:训练出一个模型,构建一个共享特征空间,在共享特征空间内,对目标域样本与源域样本进行对齐,利用源域有标签的样本的ys=f(xs)对应关系f,和目标域没有标签的样本的对齐关系,实现对目标域没有标签样本的故障分类
7、进一步的,所述数据融合步骤中,模型包括特征提取器、多类分类器、特征解码器三个子模块。
8、进一步的,对每个包含x,y映射关系的k个源域sk,均设计一个所述特征提取器e,得到k个特征提取器特征提取器采用标准resnet101模型,将resnet101的第1层特征输出进行蒸馏处理,按照权重大小对特征进行排序,统计前128个特征作为特征表示;具体过程为:收集光伏电站的逆变器级数据,共计18个参数,数据以每5分钟一次的时间分辨率进行处理;将各个参数按照历史最大最小值,进行归一化;然后将各个归一化后的参数,以每个逆变器作为硬件上的分支的分辨率,对每个逆变器按照时序信息对齐,形成一条数据,将一条数据横排为一个一维矩阵;然后从下往上将24小时的历史数据构成288*18的矩阵x,作为每次学习的输入;最后将人为标记和无法分析的共8类故障类型标记为1~8,作为每次学习的输出的y。
9、进一步的,对每个源域数据进行分类的所述多类分类器ck,在输出上产生一个b维向量的概率分数,表示是具体第bi类故障的可能性,b=8,即bi在1~8之间;多类分类器的模型结构包括1个输入层、1个隐藏层和1个输出层的mlp模型,输入层接收特征提取器输出的128个特征,隐藏层包括256个神经元,输出层包括8个神经元,对应8类故障的可能性。
10、进一步的,对于属于l源的样本sl和属于k源的样本sk,构建特征解码器{dkl};所述特征解码器的模型框架基于resnet101模型框架,包括2层全连接层,每层128个神经元。
11、进一步的,所述数据融合步骤中,模型损失函数优化过程包括源域对齐损失函数、源-目标对齐模块和类间最大模块。
12、进一步的,所述源域对齐损失函数中,用表示从每个个源域中共享一个共同的类标签即的样本,表示编码后的数据,表示对第k个编码数据的第l个解码表示,源域对齐损失函数包括以下三个损失函数:
13、a.按照下式,通过最小化损失函数实现最小化ξi在对不同源域样本的编码特征表示的区别;其中,属于l源的样本和属于k源的样本有共同的故障类标签,即yi=bi:
14、式1:
15、其中表示期望;
16、b.对于一个属于k源样本通过给定的编码器ek编码,得到定义dkl是来跨域解码从k源样本到l域的跨域解码输出,按照下式,通过最小化损失函数实现获取k和l域之间的类级别的共享特性;
17、式2:
18、c.根据特征提取器e给出的编码特征表示,对于一个给定的数据表示数据的原本真实分类,ckb表示通过分类器ck的输出分类,按照下式,通过最小化损失函数最小化每个分类器的交叉熵损失;
19、式3:
20、进一步的,所述源-目标对齐模块中,对于给定目标域样本通过第k个特征提取器,获得目标域样本的第k个特征表示然后通过分类器ck并利用分类器各自的b维非标准化logit分数进一步分析样本;假设是在k源域的特征提取器,是的b维logit向量,定义源-目标对齐一致性损失如下式:
21、式4:
22、进一步的,所述类间最大模块中,对于一个属于bl类样本集通过给定的编码器编码,得到其特征中心对于一个属于bk类的源样本集bl≠bk,通过给定的编码器编码,得到其特征中心最大化和被编码之间的距离,损失函数具体如下式:
23、式5:
24、最终,源域的中心损失度量一起被最小化,并通过最小化对源域的损失和最大化的给定目标域样本,同时训练分类器的参数:
25、式6:
26、然后通过最小化基于目标域样本,更新特征编码器ek:
27、式7:
28、与现有技术相比,本发明的有益效果是:
29、该面向多时空光伏电站故障数据无监督融合方法基于现在的有标签数据的不同源的不同数据量的有标签故障数据,进行分析和数据量平衡,得到一个能够在新光伏电站上进行故障分析的模型,从而减少其自身单独训练所需积累的时间,能够快速使用。
1.一种面向多时空光伏电站故障数据无监督融合方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向多时空光伏电站故障数据无监督融合方法,其特征在于,所述数据融合步骤中,模型包括特征提取器、多类分类器、特征解码器三个子模块。
3.根据权利要求2所述的面向多时空光伏电站故障数据无监督融合方法,其特征在于,对每个包含x,y映射关系的k个源域sk,均设计一个所述特征提取器e,得到k个特征提取器特征提取器采用标准resnet101模型,将resnet101的第1层特征输出进行蒸馏处理,按照权重大小对特征进行排序,统计前128个特征作为特征表示;具体过程为:收集光伏电站的逆变器级数据,共计18个参数,数据以每5分钟一次的时间分辨率进行处理;将各个参数按照历史最大最小值,进行归一化;然后将各个归一化后的参数,以每个逆变器作为硬件上的分支的分辨率,对每个逆变器按照时序信息对齐,形成一条数据,将一条数据横排为一个一维矩阵;然后从下往上将24小时的历史数据构成288*18的矩阵x,作为每次学习的输入;最后将人为标记和无法分析的共8类故障类型标记为1~8,作为每次学习的输出的y。
4.根据权利要求3所述的面向多时空光伏电站故障数据无监督融合方法,其特征在于,对每个源域数据进行分类的所述多类分类器ck,在输出上产生一个b维向量的概率分数,表示是具体第bi类故障的可能性,b=8,即bi在1~8之间;多类分类器的模型结构包括1个输入层、1个隐藏层和1个输出层的mlp模型,输入层接收特征提取器输出的128个特征,隐藏层包括256个神经元,输出层包括8个神经元,对应8类故障的可能性。
5.根据权利要求4所述的面向多时空光伏电站故障数据无监督融合方法,其特征在于,对于属于l源的样本sl和属于k源的样本sk,构建特征解码器{dkl};所述特征解码器的模型框架基于resnet101模型框架,包括2层全连接层,每层128个神经元。
6.根据权利要求5所述的面向多时空光伏电站故障数据无监督融合方法,其特征在于,所述数据融合步骤中,模型损失函数优化过程包括源域对齐损失函数、源-目标对齐模块和类间最大模块。
7.根据权利要求6所述的面向多时空光伏电站故障数据无监督融合方法,其特征在于,所述源域对齐损失函数中,用表示从每个个源域中共享一个共同的类标签即的样本,表示编码后的数据,表示对第k个编码数据的第l个解码表示,源域对齐损失函数包括以下三个损失函数:
8.根据权利要求7所述的面向多时空光伏电站故障数据无监督融合方法,其特征在于,所述源-目标对齐模块中,对于给定目标域样本通过第k个特征提取器,获得目标域样本的第k个特征表示然后通过分类器ck并利用分类器各自的b维非标准化logit分数进一步分析样本;假设是在k源域的特征提取器,是的b维logit向量,定义源-目标对齐一致性损失如下式:
9.根据权利要求8所述的面向多时空光伏电站故障数据无监督融合方法,其特征在于,所述类间最大模块中,对于一个属于bl类样本集通过给定的编码器编码,得到其特征中心对于一个属于bk类的源样本集bl≠bk,通过给定的编码器编码,得到其特征中心最大化和被编码之间的距离,损失函数具体如下式:
