1.本发明涉及无人机集群系统智能优化技术领域,具体而言涉及一种基于数据辅助的无人机集群协同空域抗干扰方法。
背景技术:
2.无人机发展面临的新威胁是无人机网络能够受到恶意干扰,这极大的增加了无人机正常运行,执行任务的风险。不同于基站等终端,无人机往往在远离其控制站点的地点执行任务,这使得它容易受到欺骗、干扰和窃听等攻击,导致重要信息丢失,甚至无法满足任务需求,任务中断。
3.现有大多数工作都是在讨论接收机和干扰机之间是连续实施干扰,接收机能够获取几乎所有干扰信道的信道状态信息。实际情况下接收机并不能知晓干扰信号所有的来波方向,因此不可能收集所有的干扰机动作数据。在数据缺少的情况下,接收机收集到的干扰机动作轨迹是不完整的,如果缺少一部分数据来进行数据分析,接收机不能每次都准确的估计干扰信道的信道状态信息,造成抗干扰决策训练的不充分。如果接收机缺失一部分干扰机动作数据,抗干扰性能必然会下降。
技术实现要素:
4.本发明针对现有技术中的不足,提供一种基于数据辅助的无人机集群协同空域抗干扰方法,通过加入辅助无人机收集干扰信号的数据,间接补充接收无人机获得的干扰机动作数据,使接收机获得的干扰机动作数据增加,增大接收机准确估计干扰信道的信道状态信息的概率,提高接收无人机抗干扰性能。
5.为实现上述目的,本发明采用以下技术方案:第一方面,本发明实施例提出了一种基于数据辅助的无人机集群协同空域抗干扰方法,所述抗干扰方法包括以下步骤:s1,初始化生成q网络和目标q网络,将接收机生成的滤波向量作为动作,生成动作集;其中,根据干扰信号到达方向角的变化来设定动作,根据抗干扰波束成形公式来生成接收机的滤波向量;s2,基于以下策略选择动作:以概率从动作集中随机选择接收滤波向量,以概率贪婪选择接收收益最大的滤波向量;为预设阈值限制,随学习过程推进逐渐减小;s3,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱;接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励;s4,将其中部分空间谱数据存入接收机,将未进入接收机中的剩余部分空间谱数据作为辅助数据存入辅助机;按照预设补充周期,辅助机发送接收到的空间谱数据给接收机,采用辅助机中的辅助经验补充更新接收机,同时清空辅助机;s5,从接收机中对经验进行随机批次采样,计算并更新权重;在训练过程中,通过
调整权重来减少贝尔曼方程中的均分误差,采用近似目标值代替最佳目标值;s6,重复循环步骤s2至步骤s5。
6.进一步地,步骤s1,生成动作集的过程包括以下步骤:s12,采用两个单独的神经网络分别生成q网络和目标q网络,目标q网络拥有与q网络相同的网络结构;每次训练,根据损失函数的更新公式来更新q网络中的参数,目标q网络中的参数在训练过程中不变;每训练n次,复制q网络中的参数更新一次目标q网络;n为大于1的正整数;是当前状态,是权重,是当前状态所选的动作;s12,将接收机生成的滤波向量作为动作,根据干扰信号到达方向角的变化来设定动作,根据mvbs抗干扰波束成形公式来生成接收机的滤波向量,动作集a的大小根据干扰信号到达方向角的范围而变化。
7.进一步地,步骤s12中,根据mvbs抗干扰波束成形公式来生成接收机的滤波向量的过程包括以下步骤:s121,利用mimo通信设计波束成形,使信号与干扰加噪声比sinr 最大化:,s.t. ;通过使干扰和噪声功率最小来设计接收滤波向量f,再计算预编码向量,同时生成较优的收发信机滤波向量;t表示发送机,表示欧几里得范数;s122,对接收到的干扰信号数据进行处理,估计下一时刻干扰信道的瞬时信道状态信息;设发送无人机不工作时,接收机接收到干扰和噪声信号为;n是加性高斯白噪声矢量,其元素服从独立同分布、均值为0方差为的复高斯分布;是接收机与干扰机之间的信道,j表示干扰机,r表示接收机;表示干扰信号; 为干扰方为提升干扰性能的预编码向量,c表示复数域,为c的次方,表示干扰机的天线数,干扰机干扰功率限制,表示欧几里得范数; 表示为干扰符号;s123,令,表示干扰机的概率,i为单位向量,对干扰和噪声信号进行处理,的估计结果表示为:,其中m为采样数,表示向量或矩阵的共轭转置;s124,对进行处理,分解为干扰子空间和噪声子空间:,为干扰的特征值对角矩阵;s125,通过添加以下条件来计算最优接收滤波向量,以减少对有用信号的抑制影响:,s.t. ;其中为接收机的阵列响应向量,表示向量或矩阵的共轭转置,为发送
机t到接收机r的到达方向角;s126,将最优滤波向量表示为:,表示矩阵的逆;对于通信方,假设收发信机之间通过信道估计知道它们之间的信道状态信息,求得估计的最优接收滤波向量,通过最大比传输方法来获得预编码向量,即,表示向量或矩阵的共轭转置,表示欧几里得范数;对于干扰方,考虑干扰机已知其与接收机之间已知信道状态信息的最坏情况,并运用最大比传输方法以提高干扰效果;干扰机对接收机进行干扰,即,表示向量或矩阵的共轭转置,表示欧几里得范数。
8.进一步地,步骤s3中,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱的过程包括以下步骤:s301,将i时刻的空间谱表示为,其中为空间谱在角度为180*s/s度时的观测值,s为空间角度分辨率,表示向量或矩阵的转置;s302,构建动态空间谱为,是状态,为动态空间谱;动态空间谱的矩阵大小为h*s,h表示拥有h个时隙的空间谱数据,表示向量或矩阵的转置;在i+1时刻,i+1的空间谱进入动态空间谱,同时删除较早的空间谱。
9.进一步地,步骤s3中,接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励的过程包括以下步骤:s311,将mimo信号用物理信道模型来表示,接收机r到干扰机j的离开方向角和到达方向角分别用和表示;接收机与干扰机之间的信道表示为:其中为接收机与干扰机之间的路径损耗,为接收机与干扰机天线之间的距离,为载波波长;发送机和接收机的天线阵列响应向量用与表达:===其中和表示天线间隔距离,和分别为接收机和干扰机的天线数;s312,在信号传输阶段,接收机接收到的信号表示为:其中t为发送机,表示为接收机期望接收到的有用信号,表示为干扰信号,表示接收机的功率,表示干扰机的功率;表示有用信号,为发送波束成形向量,对于发送机而言,其发送功率有限制;表示干扰信号,
ꢀ
为干扰方为提升干扰性能的预编码向量,干扰机干扰功率限制;和分别表示为发送符号和干扰符号,限制均为,e[
·
]表示期望函数,|
·
|表示标量的绝对值运算;n是加性高斯白噪声矢量;s313,接收机通过接收波束成形向量处理接收到的信号,接收滤波向量用f表示: ;接收端输出的信号与干扰噪声的比值sinr为:其中,为解调门限,只有满足sinr》,接收机才能正确解调接收到的信号;s314,令,i为单位向量,采用 表示接收机接收到的所有干扰和噪声信号;传输速率表示为:。
[0010]
进一步地,步骤s4中,采用辅助机中的辅助经验作为新的实时经验补充更新接收机的过程包括以下步骤:s41,初始化经验池d,容量为|d|,通过-贪婪策略将其中部分经验填充至其中;初始化存放辅助经验的辅助机d1,容量为|d|,将未进入经验池d中的剩余部分经验导入辅助机d1;s42,从d中随机抽取经验对q网络进行训练;其中,每经过k次迭代后,将辅助机d1的经验补充至经验池d,清空辅助机d1的经验;如果经验池d中经验数超过容量,删除经验池d中额外的时间最早的部分经验;k为大于1的正整数。
[0011]
进一步地,步骤s5中,从接收机中对实时经验进行随机批次采样,计算并更新权重的过程包括以下步骤:s51,在训练过程中,采用近似目标值替代最佳目标值,其中r为奖励,为奖励性衰变系数,为下一状态,为下一动作,为第i-1次训练过程中的网络权重参数; s为当前状态,a为当前动作,为第i次训练过程中的网络权重参数;损失函数为:;对损失函数相对于权重进行微分,得到相应的梯度公式:;s52,通过调整q网络的权重以减少贝尔曼方程中的均分误差。
[0012]
本发明的有益效果是:
本发明提出的基于数据辅助的无人机集群协同空域抗干扰方法,对于干扰机动作数据的缺失,通过加入辅助无人机收集干扰信号的数据,间接补充接收无人机获得的干扰机动作数据,接收机获得的干扰机动作数据增加,接收机准确估计干扰信道的信道状态信息的概率就会变大,提高接收无人机抗干扰性能。
附图说明
[0013]
图1是本发明中空域抗干扰系统模型示意图。
[0014]
图2是本发明中训练过程中平均q值的变化结果示意图。
[0015]
图3是本发明中不同程度数据辅助下平均传输速率对比结果示意图。
[0016]
图4是本发明中不同时延辅助下平均传输速率对比结果示意图。
[0017]
图5是本发明实施例的基于数据辅助的无人机集群协同空域抗干扰方法流程图。
具体实施方式
[0018]
现在结合附图对本发明作进一步详细的说明。
[0019]
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
[0020]
图5是本发明实施例的基于数据辅助的无人机集群协同空域抗干扰方法流程图。参见图5,该抗干扰方法包括以下步骤:s1,初始化生成q网络和目标q网络,将接收机生成的滤波向量作为动作,生成动作集;其中,根据干扰信号到达方向角的变化来设定动作,根据抗干扰波束成形公式来生成接收机的滤波向量。
[0021]
s2,基于以下策略选择动作:以概率从动作集中随机选择接收滤波向量,以概率贪婪选择接收收益最大的滤波向量。
[0022]
s3,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱;接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励。
[0023]
s4,将其中部分空间谱数据存入接收机,将未进入接收机中的剩余部分空间谱数据作为辅助数据存入辅助机;按照预设补充周期,辅助机发送接收到的空间谱数据给接收机,采用辅助机中的辅助经验补充更新接收机,同时清空辅助机。
[0024]
s5,从接收机中对经验进行随机批次采样,计算并更新权重;在训练过程中,通过调整权重来减少贝尔曼方程中的均分误差,采用近似目标值代替最佳目标值。
[0025]
s6,重复循环步骤s2至步骤s5。
[0026]
步骤1中,在训练过程中使用单独的神经网络来生成目标q值,该网络被称为目标q网络,且拥有与相同的网络结构。本实施例根据损失函数的更新公式来更新网络中的参数,目标网络中的参数在训练过程中不变,每训练n次,复制q网络中的参数。使用目标q网络,能够让目标q值保持一段时间不发生变化,使其减少与估计q值的关联,从而使得训练时损失值震荡发散的可能性降低,本实施例的稳定性提高。
[0027]
在此模型中,将接收机生成的滤波向量做为动作,由于干扰信号的到达方向角是
时刻变化的,可以根据其变化来设定动作,然后根据mvbs抗干扰波束成形公式来生成接收机的滤波向量。动作集a的大小根据干扰信号到达方向角的范围而变化。
[0028]
抗干扰波束成形方法是最小方差波束成形方法(minimum-variance beamforming scheme,mvbs)。利用mimo通信设计波束成形,主要目的还是使sinr最大化,即:,s.t. 。
[0029]
通过使干扰和噪声功率最小来设计接收滤波向量f,然后再计算预编码向量,这样就可以同时生成较优的收发信机滤波向量。对接收到的干扰信号数据进行处理,然后来估计下一时刻干扰信道的瞬时信道状态信息。当发送无人机不工作时,接受无人机接收到的就只有干扰和噪声,接收机接收到信号为。对干扰和噪声信号进行处理,的估计结果可以表示为:,其中m为采样数。对该信号进行处理,可以分解为干扰子空间和噪声子空间:,干扰的特征值对角矩阵为。为了消除大部分干扰信号造成的影响,通过在噪声子空间中来设计滤波向量来实现。如果接受无人机接收到的干扰信号到达方向角与有用信号到达方向角接近时,这将会压制有用信号的功率。所以通过添加一个条件来计算最优接收滤波向量,以减少对有用信号的抑制影响: ,s.t.
ꢀꢀ
,其中为接收机的阵列响应向量,为发送机t到接收机r的到达方向角。最优滤波向量在通过doa为的信号时,抑制干扰和噪声的显著能量。为了解决约束优化问题,可以求助于拉格朗日乘子,最优滤波向量可以表示为:。
[0030]
由此可以求得估计的最优接收滤波向量,然后通过最大比传输方法来获得预编码向量,即。干扰机也会用此方法对接收机进行干扰,即。
[0031]
步骤2中,设置一个阈值,比如说初始值是,意思就是现在选择动作的时候,的可能性是随机地从动作集中选择一个动作,的可能性是通过神经网络计算每个动作的收益,然后选收益最大的那一个。但是随着学习过程推进,阈值越来越低,随机选择的次数要越来越少,到最后几乎不做随机的选择。
[0032]
步骤3中,由于马尔可夫决策过程一般是用来解决动态问题的,将i时刻的空间谱表示为,其中为空间谱在角度为180*s/s度时的观测值,s为空间角度分辨率。构建动态空间谱为,是此实施例的状态。动态空间谱的矩阵大小为h*s,h表示拥有h个时隙的空间谱数据。在i+1时刻,i +1的空间谱进入动态空间谱,与此同时,删除较早的空间谱,达到更新空间谱的目的。
[0033]
将mimo信号用物理信道模型来表示,接收机r到干扰机j的离开方向角(direction of departure, dod)和到达方向角(doa)可以分别用和表示。接收机与干扰机之间的信道可以表示为:,其中为接收机与干扰机之间的路
径损耗,为接收机与干扰机天线之间的距离,为载波波长。发送机和接收机的天线阵列响应向量可以用()与()表达:(=,(=,其中和表示天线间隔距离,和分别为接收机和干扰机的天线数。在信号传输阶段,接收机接收到的信号可以表示为;其中t为发送机,表示为接收机期望接收到的有用信号,表示为干扰信号。表示有用信号,为发送波束成形(预编码)向量,对于发送机而言,其发送功率有限制。表示干扰信号, 为干扰方为提升干扰性能的预编码向量,干扰机干扰功率限制。和分别表示为发送符号和干扰符号,限制均为。n是加性高斯白噪声矢量。接收机通过接收波束成形向量处理接收到的信号,接收滤波向量用f表示,即:,信号与干扰噪声的比值能比较直观表现出通信质量,接收端输出的sinr可以写成:;只有满足sinr》,接收机才能正确解调接收到的信号,其中为解调门限。令,i为单位向量,那么就能表示接收机接收到的所有干扰和噪声信号。此传输速率可以表示为:。
[0034]
步骤4中,在深度强化学习中经验一般表示为(。首先,实施例初始化一个经验池d,容量为|d|,并通过-贪婪策略将部分经验填充至其中。经验池存储了带标签的一个个数据样本(在本实施例中,经验池中的经验为 ()四元组),训练神经网络是需要带标签的样本。其次,实施例从d中随机抽取经验(即批次)进行q网络训练。这种机制的优点是在训练过程中,神经网络通过随机抽样解决了训练数据之间的相关性和非静态发布问题。
[0035]
根据数据辅助的需要和实际过程,本实施例初始化同时生成一个存放辅助经验的辅助机d1,容量也为|d|,但是与经验进入经验池d中不同,已经进入经验池d中的经验不会再次进入辅助机d1,未进入经验池d中的部分经验才会进入辅助机d1,以控制不会有重复的经验。每经过n次迭代后,将辅助机d1的经验补充至经验池d。与此同时,辅助机的经验清空。如果经验池d中经验数超过容量,那么会删除经验池d较早的一部分经验,这样以保持经验池d中的经验都是最新的。
[0036]
步骤5中,在神经网络当中,将带有权值的神经网络称为q网络。在训练过程中,通过调整权重来减少贝尔曼方程中的均分误差,最佳目标值将会被近似目标值替代,其中r为奖励,为奖励性衰变系数,为下一状态,
为下一动作,为第i-1次训练过程中的网络权重参数; s为当前状态,a为当前动作,为第i次训练过程中的网络权重参数。最佳目标值与近似目标值产生了差值,因此产生了损失函数:。
[0037]
值得注意的是,目标值取决于网络权重参数。在优化损失函数的同时,权重也会与上一次的权重参数相同,这导致了一系列的优化问题。通过对损失函数相对于权重的微分,得到了下面的梯度: 。
[0038]
实例为了验证本发明方案的有效性,进行如下仿真实验。
[0039]
假设无人机是按照设定好的轨迹飞行。通过模拟随机游走来生成15条无人机轨迹。在每次训练过程中,无人机都会从生成的15条不同的轨迹中随机选择一条轨迹。干扰机的功率为20db,发送机的功率为10db。解调阈值 =5db。设定一个时隙通信需要0.1秒,其中感知阶段为0.03秒、数据传输阶段为0.05秒、学习阶段为0.01秒和ack传输阶段为0.01秒。当有辅助数据传输时,辅助数据传输与数据传输时间总和为0.05秒,整个时隙总体时间不变。
[0040]
在此实例中,将折扣率设为0.8。假设干扰信号到达方向角的范围是,接收机每隔生成一个滤波向量,所以此动作集大小为60。动态空间谱每次拥有10个时隙的空间谱数据,空间谱矩阵大小为10*180。经验池d和d1容量为 。采用 adam 优化器来训练网络,每次迭代从经验池中采样的样本数为32。总迭代次数各不相同,均用来训练q 网络。随机探索概率随着迭代次数的增加从1线性递减至。目标网络的权重每100次更新1次。
[0041]
在迭代过程开始时,接收机随机地从动作集a选取滤波向量。随机选择动作会随着迭代次数的增加慢慢减少,对于每个状态,接收机就会根据之前获得的经验来选择能否获得高收益的动作,从而提高吞吐量性能。
[0042]
图2显示了训练过程中平均q值的变化,该变化是通过取q网络输出的平均值获得的,其中每个点是每1000次迭代的滑动平均值。通过图2可以看出,曲线逐渐趋向收敛,验证了该实施例是收敛的。
[0043]
图3给出了接收无人机在不同程度数据辅助的干扰机动作数据量下平均传输速率性能对比,其中每个点是每 1000 次迭代的滑动平均值。如图3所示,假设接收机一开始只有20%的干扰机动作数据时,抗干扰性能是较差的。辅助机通过数据传输将接收到20%的干扰机动作数据发送给接收机,即接收机拥有40%的干扰机动作数据,抗干扰性能明显提高。辅助机再通过数据传输将接收到20%的干扰机动作数据发送给接收机,即接收机拥有60%的干扰机动作数据,抗干扰性能也明显提高。辅助机再通过数据将发送接收到20%的干扰机动作数据传输给接收机,即接收机拥有80%的干扰机动作数据,由于接收机已经拥有大部分干扰机动作数据,抗干扰性能提高,但不如干扰机动作数据少有数据辅助时抗干扰性能提升明显。总体而言,辅助机辅助的干扰机动作数据逐渐增多,接收机抗干扰性能也逐渐提高。
[0044]
图4给出了接收机不能得到所有的干扰机动作数据,在辅助机在不同时延情况下补充一部分数据后,平均传输速率性能对比,其中每个点是每 1000 次迭代的滑动平均值。
如图4所示,接收机在有辅助机的辅助获得干扰机动作数据的情况下,时延比较低的时候,接收机只需花费较少的时间就能较好地进行抗干扰,就如辅助机每5000次通过数据传输将接收到20%的干扰机动作数据发送给接收机,辅助机的作用较大。而时延比较高的时候。再如辅助机每10000次通过数据传输将接收到20%干扰机动作数据发送给接收机,这时接收机的抗干扰性能较差,辅助机几乎不起作用。由此可知,辅助机提供干扰机动作数据越快,接收机抗干扰性能提升越快,辅助机提供干扰机动作数据较慢,接收机抗干扰性能提升也相对较慢。
[0045]
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
技术特征:
1.一种基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,所述抗干扰方法包括以下步骤:s1,初始化生成q网络和目标q网络,将接收机生成的滤波向量作为动作,生成动作集;其中,根据干扰信号到达方向角的变化来设定动作,根据抗干扰波束成形公式来生成接收机的滤波向量;s2,基于以下策略选择动作:以概率从动作集中随机选择接收滤波向量,以概率贪婪选择接收收益最大的滤波向量;为预设阈值限制,随学习过程推进逐渐减小;s3,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱;接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励;s4,将其中部分空间谱数据存入接收机,将未进入接收机中的剩余部分空间谱数据作为辅助数据存入辅助机;按照预设补充周期,辅助机发送接收到的空间谱数据给接收机,采用辅助机中的辅助经验补充更新接收机,同时清空辅助机;s5,从接收机中对经验进行随机批次采样,计算并更新权重;在训练过程中,通过调整权重来减少贝尔曼方程中的均分误差,采用近似目标值代替最佳目标值;s6,重复循环步骤s2至步骤s5。2.根据权利要求1所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤s1,生成动作集的过程包括以下步骤:s12,采用两个单独的神经网络分别生成q网络和目标q网络,目标q网络拥有与q网络相同的网络结构;每次训练,根据损失函数的更新公式来更新q网络中的参数,目标q网络中的参数在训练过程中不变;每训练n次,复制q网络中的参数更新一次目标q网络;n为大于1的正整数;是当前状态,是权重,是当前状态所选的动作;s12,将接收机生成的滤波向量作为动作,根据干扰信号到达方向角的变化来设定动作,根据mvbs抗干扰波束成形公式来生成接收机的滤波向量,动作集a的大小根据干扰信号到达方向角的范围而变化。3.根据权利要求2所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤s12中,根据mvbs抗干扰波束成形公式来生成接收机的滤波向量的过程包括以下步骤:s121,利用mimo通信设计波束成形,使信号与干扰加噪声比sinr 最大化:,s.t. ;通过使干扰和噪声功率最小来设计接收滤波向量f,再计算预编码向量,同时生成较优的收发信机滤波向量;t表示发送机,表示欧几里得范数;s122,对接收到的干扰信号数据进行处理,估计下一时刻干扰信道的瞬时信道状态信息;设发送无人机不工作时,接收机接收到干扰和噪声信号为;n是加性高斯白噪声矢量,其元素服从独立同分布、均值为0方差为的复高斯分布;是接收机与干扰机之间的信道,j表示干扰机,r表示接收机;表示干扰信号; 为干
扰方为提升干扰性能的预编码向量,c表示复数域,为c的次方,表示干扰机的天线数,干扰机干扰功率限制;表示为干扰符号;s123,令,表示干扰机的概率,i为单位向量,对干扰和噪声信号进行处理,的估计结果表示为:,其中m为采样数,表示向量或矩阵的共轭转置;s124,对进行处理,分解为干扰子空间和噪声子空间:,为干扰的特征值对角矩阵;s125,通过添加以下条件来计算最优接收滤波向量,以减少对有用信号的抑制影响:,s.t. ;其中为接收机的阵列响应向量, 为发送机t到接收机r的到达方向角;s126,将最优滤波向量表示为:;对于通信方,假设收发信机之间通过信道估计知道它们之间的信道状态信息,求得估计的最优接收滤波向量,通过最大比传输方法来获得预编码向量,即;对于干扰方,考虑干扰机已知其与接收机之间已知信道状态信息的最坏情况,并运用最大比传输方法以提高干扰效果;干扰机对接收机进行干扰,即。4.根据权利要求1所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤s3中,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱的过程包括以下步骤:s301,将i时刻的空间谱表示为,其中为空间谱在角度为180*s/s度时的观测值,s为空间角度分辨率,表示向量或矩阵的转置;s302,构建动态空间谱为,是状态,为动态空间谱;动态空间谱的矩阵大小为h*s,h表示拥有h个时隙的空间谱数据;在i+1时刻,i+1的空间谱进入动态空间谱,同时删除较早的空间谱。5.根据权利要求4所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤s3中,接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励的过程包括以下步骤:s311,将mimo信号用物理信道模型来表示,接收机r到干扰机j的离开方向角和到达方向角分别用和表示;接收机与干扰机之间的信道表示为:其中为接收机与干扰机之间的路径损耗,为接收机与干扰机天线之间的距离,
为载波波长;发送机和接收机的天线阵列响应向量用与表达:===其中和表示天线间隔距离,和分别为接收机和干扰机的天线数;s312,在信号传输阶段,接收机接收到的信号表示为:其中t为发送机,表示为接收机期望接收到的有用信号,表示为干扰信号,表示接收机的功率,表示干扰机的功率;表示有用信号,为发送波束成形向量,对于发送机而言,其发送功率有限制;表示干扰信号, 为干扰方为提升干扰性能的预编码向量,干扰机干扰功率限制;和分别表示为发送符号和干扰符号,限制均为,e[
·
]表示期望函数,|
·
|表示标量的绝对值运算;n是加性高斯白噪声矢量;s313,接收机通过接收波束成形向量处理接收到的信号,接收滤波向量用f表示:;接收端输出的信号与干扰噪声的比值sinr为:其中,为解调门限,只有满足sinr>,接收机才能正确解调接收到的信号;s314,令,i为单位向量,采用 表示接收机接收到的所有干扰和噪声信号;传输速率表示为:。6.根据权利要求1所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤s4中,采用辅助机中的辅助经验作为新的实时经验补充更新接收机的过程包括以下步骤:s41,初始化经验池d,容量为|d|,通过-贪婪策略将其中部分经验填充至其中;初始化存放辅助经验的辅助机d1,容量为|d|,将未进入经验池d中的剩余部分经验导入辅助机d1;s42,从d中随机抽取经验对q网络进行训练;其中,每经过k次迭代后,将辅助机d1的经验补充至经验池d,清空辅助机d1的经验;如果经验池d中经验数超过容量,删除经验池d中额外的时间最早的部分经验;k为大于1的正整数。
7.根据权利要求1所述的基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,步骤s5中,从接收机中对实时经验进行随机批次采样,计算并更新权重的过程包括以下步骤:s51,在训练过程中,采用近似目标值替代最佳目标值,其中r为奖励,为奖励性衰变系数,为下一状态,为下一动作,为第i-1次训练过程中的网络权重参数; s为当前状态,a为当前动作,为第i次训练过程中的网络权重参数;损失函数为:;对损失函数相对于权重进行微分,得到相应的梯度公式:;s52,通过调整q网络的权重以减少贝尔曼方程中的均分误差。
技术总结
本发明公开了一种基于数据辅助的无人机集群协同空域抗干扰方法,包括:将接收机生成的滤波向量作为动作,生成动作集;以概率从动作集中随机选择接收滤波向量,以概率贪婪选择接收收益最大的滤波向量;感知当前空间谱,将每个时刻的空间谱导入动态空间谱;接收机通过接收波束成形向量处理接收到的信号,求取信号对应的信干噪比来获取通信速率奖励;将其中部分空间谱数据存入接收机,将未进入接收机中的剩余部分空间谱数据作为辅助数据存入辅助机;按照预设补充周期,辅助机发送接收到的空间谱数据给接收机;从接收机中对经验进行随机批次采样,计算并更新权重。本发明能够提高接收无人机抗干扰性能。提高接收无人机抗干扰性能。提高接收无人机抗干扰性能。
技术研发人员:姚昌华 高泽郃 韩贵真 安蕾 程康 胡程程
受保护的技术使用者:南京信息工程大学
技术研发日:2022.02.08
技术公布日:2022/3/8