基于多模态感知Mamba的无人机视觉语言导航方法

专利查询7小时前  2


本发明属于视觉语言导航,具体涉及基于多模态感知mamba的无人机视觉语言导航方法。


背景技术:

1、科技和网络的迅速发展带动了无人机的广泛应用,无论是军事,交通,农业,还是摄影,表演都涉及无人机的使用。但是,对比与地面机器人来说,无人机的操作难度更大,因为要考虑高度的影响。因此,需要有人时刻观察无人机的状态,使用控制器来控制其移动。这不仅需要大量的人力物力,并且对一些新手并不友好。所以,发展一种免控制,通过人机对话交流就能完成飞行任务的智能无人机成为了迫切需求。

2、最近,使用传统的深度网络模型(rnn, transformer)来开发这样的无人机导航算法取得了不错的进展。但是由于rnn模型随序列长度改变,会发生过度遗忘现象,并且其无法并行训练,导致训练速度低;而transformer 由于序列长度平方级的计算复杂度,推理缓慢,因此现在的方法导航效果不尽人意。最近mamba模型的出现,打破了这些限制。以其可并行训练,并且线性计算复杂度的优势成为了替代 transformer 的强有力的模型。而现在并没有研究将mamba应用到无人机视觉语言导航中。


技术实现思路

1、为解决上述技术问题,本发明提供基于多模态感知mamba的无人机视觉语言导航方法,首次提出将mamba模型应用到无人机视觉语言导航中,并针对导航任务的特性增强关键语义的文本指令,语言指令中包含复杂的语义知识和上下文内容,而地标词,方向词是则是导航重点关注和理解的语义内容。因此使用地标词,方向词来增强指令的理解,对促进后续模态的融合对齐有着重要作用。本发明对视觉环境进行理解,一方面为了能够感知历史指令,促进全局内容和历史线索的学习,设计与指令相关的视觉token;另一方面为了能够充分理解环境信息,促进空间结构和语义内容的挖掘,设计与指令无关的视觉token。本发明设置多模态感知mamba,简单的将语言、视觉、方向三种模态拼接成序列输入到mamba中效果次优,考虑到任务多模态特性提出多模态共享优化的策略,保证每个模态的特征外,共享另外两个模态的内容,促进模态之间的融合,使模型根据判别性,能够关注当前的环境和位置状态,挖掘与其相关的内容线索,促进导航的效率。

2、为实现上述目的,本发明采用如下技术方案:

3、基于多模态感知mamba的无人机视觉语言导航方法,包括如下步骤:

4、步骤s1、对文本指令信息建模,提取文本关键语义特征,使无人机代理能够理解指令上下文内容;

5、步骤s2、对无人机代理捕获的视觉图像以及位置方向进行建模,提取视觉语义和方向语义特征,使其能够感知环境信息;

6、步骤s3、对导航的历史轨迹进行建模,提取历史轨迹特征,使无人机代理能够从历史信息中挖掘关键知识;

7、步骤s4、基于mamba模型将文本、视觉以及方向三个不同模态的信息融合学习,推理导航动作;

8、步骤s5、将上述步骤整合到一个统一的框架,进行框架的整体训练。

9、本发明的有益效果为:

10、1)本发明提出了一种多模态共享的mamba模型,促进不同模态之间的融合学习,并增强了模型的判别性,提高了导航的效率;

11、2)本发明从语言,视觉两个模态设计了额外增强策略,并和mamba模型融合为一个整体框架进行优化,促进了导航任务的完整,保证了导航效率。



技术特征:

1.一种基于多模态感知mamba的无人机视觉语言导航方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态感知mamba的无人机视觉语言导航方法,其特征在于,所述步骤s1包括:

3.根据权利要求1所述的一种基于多模态感知mamba的无人机视觉语言导航方法,其特征在于,所述步骤s2包括:

4.根据权利要求3所述的一种基于多模态感知mamba的无人机视觉语言导航方法,其特征在于,所述步骤s3包括:

5.根据权利要求1所述的一种基于多模态感知mamba的无人机视觉语言导航方法,其特征在于,所述步骤s4获得各个模态的特征后,使用mamba模型进行多模态感知融合以及动作的预测,并针对导航任务做出相应的改进,包括:

6.根据权利要求5所述的一种基于多模态感知mamba的无人机视觉语言导航方法,其特征在于,所述步骤s5中,所述统一框架的整合即优化下述损失函数l为:


技术总结
本发明公开了一种多模态感知Mamba的无人机视觉语言导航方法,包括:对文本指令信息建模,提取文本语义特征,使代理能够理解指令上下文内容;对无人机代理捕获的视觉图像以及位置方向进行建模,提取视觉语义和方向语义特征,使其能够感知环境信息;对导航的历史轨迹进行建模,提取历史轨迹特征,使无人机代理能够从历史信息中挖掘关键知识;基于Mamba模型将文本、视觉以及方向三个不同模态的信息融合学习,推理导航动作;将上述所有部分整合到一个统一的框架,进行模型的整体训练。本发明使得模型能够捕获不同模态关键的导航线索,促进多模态融合,提高导航效果。

技术研发人员:徐常胜,高君宇,王宗萌
受保护的技术使用者:中国科学院自动化研究所
技术研发日:
技术公布日:2024/12/5

最新回复(0)