基于多模态感知Mamba的无人机视觉语言导航方法

本发明属于视觉语言导航，具体涉及基于多模态感知mamba的无人机视觉语言导航方法。

背景技术：

1、科技和网络的迅速发展带动了无人机的广泛应用，无论是军事，交通，农业，还是摄影，表演都涉及无人机的使用。但是，对比与地面机器人来说，无人机的操作难度更大，因为要考虑高度的影响。因此，需要有人时刻观察无人机的状态，使用控制器来控制其移动。这不仅需要大量的人力物力，并且对一些新手并不友好。所以，发展一种免控制，通过人机对话交流就能完成飞行任务的智能无人机成为了迫切需求。

2、最近，使用传统的深度网络模型（rnn, transformer）来开发这样的无人机导航算法取得了不错的进展。但是由于rnn模型随序列长度改变，会发生过度遗忘现象，并且其无法并行训练，导致训练速度低；而transformer 由于序列长度平方级的计算复杂度，推理缓慢，因此现在的方法导航效果不尽人意。最近mamba模型的出现，打破了这些限制。以其可并行训练，并且线性计算复杂度的优势成为了替代 transformer 的强有力的模型。而现在并没有研究将mamba应用到无人机视觉语言导航中。

技术实现思路

1、为解决上述技术问题，本发明提供基于多模态感知mamba的无人机视觉语言导航方法，首次提出将mamba模型应用到无人机视觉语言导航中，并针对导航任务的特性增强关键语义的文本指令，语言指令中包含复杂的语义知识和上下文内容，而地标词，方向词是则是导航重点关注和理解的语义内容。因此使用地标词，方向词来增强指令的理解，对促进后续模态的融合对齐有着重要作用。本发明对视觉环境进行理解，一方面为了能够感知历史指令，促进全局内容和历史线索的学习，设计与指令相关的视觉token；另一方面为了能够充分理解环境信息，促进空间结构和语义内容的挖掘，设计与指令无关的视觉token。本发明设置多模态感知mamba，简单的将语言、视觉、方向三种模态拼接成序列输入到mamba中效果次优，考虑到任务多模态特性提出多模态共享优化的策略，保证每个模态的特征外，共享另外两个模态的内容，促进模态之间的融合，使模型根据判别性，能够关注当前的环境和位置状态，挖掘与其相关的内容线索，促进导航的效率。

2、为实现上述目的，本发明采用如下技术方案：

3、基于多模态感知mamba的无人机视觉语言导航方法，包括如下步骤：

4、步骤s1、对文本指令信息建模，提取文本关键语义特征，使无人机代理能够理解指令上下文内容；

5、步骤s2、对无人机代理捕获的视觉图像以及位置方向进行建模，提取视觉语义和方向语义特征，使其能够感知环境信息；

6、步骤s3、对导航的历史轨迹进行建模，提取历史轨迹特征，使无人机代理能够从历史信息中挖掘关键知识；

7、步骤s4、基于mamba模型将文本、视觉以及方向三个不同模态的信息融合学习，推理导航动作；

8、步骤s5、将上述步骤整合到一个统一的框架，进行框架的整体训练。

9、本发明的有益效果为：

10、1）本发明提出了一种多模态共享的mamba模型，促进不同模态之间的融合学习，并增强了模型的判别性，提高了导航的效率；

11、2）本发明从语言，视觉两个模态设计了额外增强策略，并和mamba模型融合为一个整体框架进行优化，促进了导航任务的完整，保证了导航效率。

技术特征：

1.一种基于多模态感知mamba的无人机视觉语言导航方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态感知mamba的无人机视觉语言导航方法，其特征在于，所述步骤s1包括：

3.根据权利要求1所述的一种基于多模态感知mamba的无人机视觉语言导航方法，其特征在于，所述步骤s2包括：

4.根据权利要求3所述的一种基于多模态感知mamba的无人机视觉语言导航方法，其特征在于，所述步骤s3包括：

5.根据权利要求1所述的一种基于多模态感知mamba的无人机视觉语言导航方法，其特征在于，所述步骤s4获得各个模态的特征后，使用mamba模型进行多模态感知融合以及动作的预测，并针对导航任务做出相应的改进，包括：

6.根据权利要求5所述的一种基于多模态感知mamba的无人机视觉语言导航方法，其特征在于，所述步骤s5中，所述统一框架的整合即优化下述损失函数l为：

技术总结
本发明公开了一种多模态感知Mamba的无人机视觉语言导航方法，包括：对文本指令信息建模，提取文本语义特征，使代理能够理解指令上下文内容；对无人机代理捕获的视觉图像以及位置方向进行建模，提取视觉语义和方向语义特征，使其能够感知环境信息；对导航的历史轨迹进行建模，提取历史轨迹特征，使无人机代理能够从历史信息中挖掘关键知识；基于Mamba模型将文本、视觉以及方向三个不同模态的信息融合学习，推理导航动作；将上述所有部分整合到一个统一的框架，进行模型的整体训练。本发明使得模型能够捕获不同模态关键的导航线索，促进多模态融合，提高导航效果。

技术研发人员：徐常胜,高君宇,王宗萌
受保护的技术使用者：中国科学院自动化研究所
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)