本发明属于无人机在缓存服务场景的自适应决策,尤其涉及基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法。
背景技术:
1、近年来,物联网和智能设备的快速发展促进了数据密集型应用井喷式出现,但激增的请求数据流量也带来了巨大的网络负载。因此,为了减轻重复的内容传输造成的回程链路拥塞,边缘缓存作为一种有效的解决方案应运而生。通过将流行的内容缓存在边缘侧,可以减少用户的访问延迟并提高服务质量。然而,静态的边缘服务器在面对动态变化的网络拓扑时,可能无法提供可靠的内容传输,给用户带来不好的体验,而部署多个边缘服务器又会面临额外的成本问题。
2、无人机作为空中基站,能够提供更广的覆盖范围和更高的传输速率,为无线网络提供灵活的无线接入。通过无人机增强地面蜂窝网络,能够扩大在农村和偏远地区、热点地区和紧急情况下的服务覆盖范围。但是无人机的缓存和存储有限,可能无法满足用户的请求,因此高空平台可以作为无人机网络的补充组件,协助无人机覆盖更大的区域。此外,启用缓存的无人机可以根据需要动态部署来为用户提供服务,从而提高缓存效率。
3、传统的轨迹优化算法需要全局信息,包括用户位置、信道状态和内容流行度分布等信息,而有些信息在动态变化的环境中通常是不可用的。此外,用户位置和请求内容等信息属于用户隐私,在集中式的方法中会导致隐私泄露问题。因此,无需共享原始数据就能协作训练的联邦学习作为一种很有前途的方法被引入。
技术实现思路
1、本发明的目的在于提出基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,研究多无人机的内容缓存与轨迹规划场景,为了保护用户隐私,提出了一种联邦学习框架,并使用基于深度强化学习的方法对缓存替换策略和无人机的轨迹进行优化。为了提高缓存命中率,无人机从高空平台下载预训练的缓存替换模型进行本地替换决策。同时,无人机将在本地进行分布式训练,通过最大化公平吞吐量来优化轨迹,并将模型权重上传到高空平台。高空平台通过联邦学习算法聚合所有无人机的模型,并使用全局模型协助更新无人机的本地模型。本实施例提出的方法在保护隐私的前提下能够进行更充分的探索,以解决缓存命中和用户的公平通信问题。
2、为实现上述目的,本发明提供了基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,包括:
3、构建空地无线通信缓存网络,获取空地无线通信缓存网络的累计平均吞吐量;其中,所述空地无线通信缓存网络包括:m架无人机和m个服务群组;
4、基于所述累计平均吞吐量,构建无人机轨迹的优化目标函数;
5、将无人机中的缓存替换模型构建为第一mdp模型,将无人机的轨迹设计构建为第二mdp模型;
6、基于所述优化目标函数,采用联邦深度强化学习的算法,计算所述第一mdp模型和第二mdp模型的全局参数,基于所述全局参数进行多无人机内容缓存与轨迹规划。
7、可选地,获取空地无线通信缓存网络的累计平均吞吐量包括:
8、获取用户n在前t个时隙中的时间累计吞吐量;
9、定义用户n的吞吐量比;
10、利用所述吞吐量比,获取基于jain公平指数的公平指数;
11、基于前t个时隙中的时间累计吞吐量和公平指数,获取所述累计平均吞吐量。
12、可选地,获取用户n在前t个时隙中的时间累计吞吐量包括:
13、计算内容的请求概率用来模拟用户请求概率;
14、基于所述用户请求概率,获取时隙t内无人机m对用户n的缓存命中概率;
15、获取无人机和用户之间的下行数据传输速率;
16、基于时隙t内无人机m对用户n的缓存命中概率和所述下行数据传输速率,获取用户n在前t个时隙中的时间累计吞吐量。
17、可选地,前t个时隙中的时间累计吞吐量为:
18、
19、其中,dn(t)为时间累计吞吐量,为时隙t内无人机m对于用户n的缓存命中率,rm,n(t)为时隙t内无人机m与用户n之间的数据传输速率;i是累加函数中的变量,用来指代t;
20、用户n的吞吐量比为:
21、
22、其中,fn(t)为用户n的吞吐量比,n为用户的数量;
23、所述公平指数为:
24、
25、其中,为公平指数;
26、所述累计平均吞吐量为:
27、
28、其中,df为累计平均吞吐量,t为总时隙数。
29、可选地,时隙t内无人机m对于用户n的缓存命中概率为:
30、
31、其中,为时隙t内无人机m对于用户n的缓存命中概率,ψm(t)为无人机m的缓存空间,ξ为无人机的缓存替换策略,am,n(t)为时隙t中的访问决策,为命中的缓存内容数,为总请求数;
32、所述内容的请求概率为:
33、
34、其中,pi表示内容的请求概率,k表示缓存内容块的数量,j表示{1,...,k},λ表示流行度系数;
35、所述无人机和用户之间的下行数据传输速率为:
36、
37、其中,rm,n(t)表示无人机和用户之间的下行数据传输速率,am,n(t)表示时隙t中的访问决策,bm,n(t)表示用户n分配到的信道带宽,p0和n0分别代表传输功率和噪声功率谱密度,表示无人机-用户链路的平均路径损耗。
38、可选地,无人机轨迹的所述优化目标函数为:
39、
40、s.t.c1:
41、c2:
42、c3:
43、c4:
44、c5:
45、c6:
46、其中,df表示系统的累计平均吞吐量,pm(t)表示无人机的轨迹,qn表示群组用户的位置,c1和c2表示有限区域的约束条件,c3和c4表示无人机的飞行速度约束,其最大速度为vmax,最大加速度为amax,c5表示无人机的机载能量约束,xm(t)表示无人机m在时隙t的水平横坐标,xmax表示用户分布区域的范围,表示对任意的无人机m都满足,表示对任意的时隙t都满足,ym(t)表示无人机m在时隙t的水平纵坐标,ymax表示用户分布区域的范围,vm(t)表示无人机m在时隙t的速度,am(t)表示无人机m在时隙t的加速度,einit表示无人机初始的能量值,e(t)表示无人机在时隙t的剩余能量,k表示内容块的数量,表示无人机m在时隙t的缓存决策,c表示缓存空间的大小。
47、可选地,所述无人机在时隙t的剩余能量的获取方法为:
48、获取无人机飞行过程中旋翼的推力;
49、基于无人机飞行过程中旋翼的推力,获取无人机在飞行过程中消耗的能量;
50、基于无人机在飞行过程中消耗的能量,获取无人机在时隙t的剩余能量。
51、可选地,无人机m在下一时隙的位置为:
52、
53、其中,pm(t)为无人机m在时隙t的位置,vm(t)为无人机m在时隙t的速度向量,am(t)为无人机m在时隙t的加速度向量,δ为每个时隙的长度。
54、无人机飞行过程中旋翼的推力为:
55、
56、其中,m为无人机的质量,ρ为空气密度,v=‖v‖为无人机速度的绝对值,sfp为等效平板面积,g为重力加速度矢量,th(v,a)为无人机飞行过程中旋翼的推力;
57、无人机在飞行过程中消耗的能量为:
58、
59、其中,p(v,th)为无人机在飞行过程中消耗的能量,nr为旋翼数量,th为无人机飞行过程中旋翼的推力,τc为爬升角,d0为各个旋翼的机身阻力比,cs为各旋翼的实心度,a为各旋翼的盘面积,δ为局部叶截面阻力系数,ct为基于制动盘面积的推力系数,cf为感应功率增量修正系数;
60、无人机在时隙t的剩余能量为:
61、
62、其中,e(t)为无人机在时隙t的剩余能量,einit为无人机的初始能量,δ为时隙的长度。
63、可选地,所述第一mdp模型包括:第一状态空间、第一动作空间、第一奖励设计;
64、所述第一状态空间为:
65、st={v0,v1,...,vc}
66、其中,vi,i=0,...,c是请求内容的特征向量,由三个部分组成:短期特征vsi,中期特征vmi和长期特征vli,分别表示特定时间窗口内对应内容的请求总数;
67、所述第一动作空间为:
68、at=ξ∈{1,...,c}
69、其中,ξ=1,...,c表示使用当前请求的内容替换对应位置缓存的内容;
70、所述第一奖励设计为:
71、
72、其中,h(t)是第t个决策时期每个缓存内容的累计命中数量,使用权重wi来突出显示每个缓存槽上的差异;
73、所述第二mdp模型包括:第二状态空间、第二动作空间、第二奖励设计;
74、所述第二状态空间为:
75、st=(lm,n(t),v(t),vp(t))
76、其中,lm,n(t)是无人机和用户的相对位置,v(t)是无人机的飞行速度,vp(t)是无人机的飞行方向;
77、所述第二动作空间为:
78、at={a(t),ap(t)}
79、其中,a(t)是无人机加速度的大小,ap(t)是无人机加速度的方向;
80、所述第二奖励设计为:
81、rt=rtth+rtpe
82、其中,rtth是吞吐量奖励,rtpe是约束负激励。
83、可选地,采用联邦深度强化学习的算法计算全局参数为:
84、ωglobal(ε)=ρiωi(ε)
85、其中,ρi是第i个代理的重要性权重,ωglobal(ε)表示全局模型参数,ωi表示第i个分布式代理的本地模型参数。
86、本发明具有以下有益效果:
87、本发明研究多无人机的内容缓存与轨迹规划场景。为了保护用户隐私,提出了一种联邦学习框架,并使用基于深度强化学习的方法对缓存替换策略和无人机的轨迹进行优化。为了提高缓存命中率,无人机从高空平台下载预训练的缓存替换模型进行本地替换决策。同时,无人机将在本地进行分布式训练,通过最大化公平吞吐量来优化轨迹,并将模型权重上传到高空平台。高空平台通过联邦学习算法聚合所有无人机的模型,并使用全局模型协助更新无人机的本地模型。本发明提出的方法在保护隐私的前提下能够进行更充分的探索,以解决缓存命中和用户的公平通信问题。
1.基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,其特征在于,包括:
2.根据权利要求1所述的基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,其特征在于,获取空地无线通信缓存网络的累计平均吞吐量包括:
3.根据权利要求2所述的基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,其特征在于,获取用户n在前t个时隙中的时间累计吞吐量包括:
4.根据权利要求2所述的基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,其特征在于,前t个时隙中的时间累计吞吐量为:
5.根据权利要求3所述的基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,其特征在于,时隙t内无人机m对用户n的缓存命中概率为:
6.根据权利要求1所述的基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,其特征在于,无人机轨迹的所述优化目标函数为:
7.根据权利要求6所述的基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,其特征在于,所述无人机在时隙t的剩余能量的获取方法为:
8.根据权利要求7所述的基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,其特征在于,无人机m在下一时隙的位置为:
9.根据权利要求1所述的基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,其特征在于,
10.根据权利要求1所述的基于联邦深度强化学习的多无人机内容缓存与轨迹规划方法,其特征在于,采用联邦深度强化学习的算法计算全局参数为: