导航模型分布式训练方法、装置、计算机设备及存储介质与流程

本技术涉及机器视觉领域，尤其涉及一种导航模型分布式训练方法、装置、计算机设备及存储介质。

背景技术：

1、智能体是指具有智能的实体，以智能体包括家用机器人为例，家用机器人可通过网络模型对通过机器视觉采集的环境信息及环境中包含的物件信息进行数字化的描述，如墙壁、家具等，然后基于网络模型将数字化的描述转换成相应的动作策略，以使家用机器人根据所述动作策略在所处环境中进行移动。

2、但对于目前普遍应用于智能体导航的网络模型而言，其训练过程往往是在单一的服务器上完成训练，导致无法基于各个智能体所处环境的实际场景信息进行个性化的模型训练，将训练好的模型部署于各个智能体时可能会出现与智能体所处环境不适配或是不够智能的问题，例如对环境感知不够精确、导航路径固定等。另外，如果将各个智能体的本地数据上传至同一服务器对网络模型进行训练，又可能会带来智能体本地的隐私数据或敏感数据泄露的安全问题。

技术实现思路

1、本技术实施例提供一种导航模型分布式训练方法、装置、计算机设备及存储介质，旨在提升训练得到的导航模型的智能度，以及导航模型在应用于智能体时对于智能体及智能体所处环境的适配度，并且避免智能体本地的隐私数据或敏感数据在训练的过程中产生泄露。

2、第一方面，本技术实施例提供了一种导航模型分布式训练方法，包括：

3、获取环境图像库并调用初始编码模型，环境图像库包括若干环境图像以及与环境图像一一对应的自然语言指令；

4、基于环境图像与自然语言指令对初始编码模型进行训练得到目标编码模型，其中，目标编码模型输出表征环境图像的描述性编码，且描述性编码与环境图像对应的自然语言指令相匹配；

5、基于目标编码模型生成全局导航模型，其中，全局导航模型用于根据环境图像生成动作策略；

6、将全局导航模型分别下发至智能体集群中的每一智能体，以使每一智能体基于对应的本地数据对全局导航模型中的模型参数进行训练得到第一训练参数；

7、获取各智能体反馈的第一训练参数，并根据第一训练参数对全局导航模型进行参数更新以生成目标导航模型。

8、在一些实施方式中，根据第一训练参数对全局导航模型进行参数更新以生成目标导航模型，包括：

9、根据各智能体对应的第一训练参数生成聚合参数；

10、利用聚合参数替换全局导航模型中的模型参数得到待定导航模型；

11、当待定导航模型满足预设收敛准则时，将待定导航模型作为目标导航模型。

12、在一些实施方式中，方法还包括：

13、当待定导航模型未满足预设收敛准则时，将聚合参数下发至每一智能体，以使智能体根据利用聚合参数替换全局导航模型中的模型参数得到第一导航模型，并基于对应的本地数据对第一导航模型中的模型参数进行训练得到第二训练参数；

14、获取各智能体反馈的第二训练参数，并根据第一训练参数对全局导航模型进行参数更新以生成修正导航模型。

15、在一些实施方式中，根据各智能体对应的第一训练参数生成聚合参数，包括：

16、获取各智能体对应的权重系数；

17、根据智能体对应的第一训练参数与权重系数计算加权平均值作为聚合参数。

18、在一些实施方式中，基于目标编码模型生成全局导航模型，包括：

19、调取第一线性网络，第一线性网络用于输出基于描述性编码生成的动作策略；

20、根据目标编码模型与第一线性网络生成策略模型；

21、调取第二线性网络，第二线性网络用于输出基于描述性编码对动作策略进行评估确定的动作价值；

22、根据目标编码模型与第二线性网络生成价值模型；

23、基于策略模型与价值模型生成全局导航模型。

24、在一些实施方式中，基于环境图像与自然语言指令对初始编码模型进行训练得到目标编码模型之前，还包括：

25、对环境图像进行图像尺寸调整操作，以使调整后的环境图像尺寸满足预设尺寸范围；

26、和/或，

27、对环境图像中的至少部分像素进行像素值调整操作，像素值调整操作包括归一化、锐化、对比度调整中的至少一者。

28、在一些实施方式中，基于环境图像与自然语言指令对初始编码模型进行训练得到目标编码模型，包括：

29、将环境图像输入初始编码模型，由初始编码模型输出与环境图像对应的描述性编码；

30、对自然语言指令进行编码操作以生成语言指令编码，并生成表征描述性编码与语言指令编码之间相似度的语义特征向量；

31、基于语义特征向量对初始编码模型中的模型参数进行迭代训练，得到目标编码模型。

32、第二方面，本技术实施例还提供一种导航模型分布式训练装置，包括：

33、初始化模块，用于获取环境图像库并调用初始编码模型，环境图像库包括若干环境图像以及与环境图像一一对应的自然语言指令；

34、集中训练模块，用于基于环境图像与自然语言指令对初始编码模型进行训练得到目标编码模型，其中，目标编码模型输出表征环境图像的描述性编码，且描述性编码与环境图像对应的自然语言指令相匹配；

35、全局模型模块，用于基于目标编码模型生成全局导航模型，其中，全局导航模型用于根据环境图像生成动作策略；

36、模型下发模块，用于将全局导航模型分别下发至智能体集群中的每一智能体，以使每一智能体基于对应的本地数据对全局导航模型中的模型参数进行训练得到第一训练参数；

37、模型聚合模块，用于获取各智能体反馈的第一训练参数，并根据第一训练参数对全局导航模型进行参数更新以生成目标导航模型。

38、第三方面，本技术实施例还提供了一种计算机设备，包括存储器和处理器；

39、存储器，用于存储计算机程序；

40、处理器，用于执行的计算机程序并在执行的计算机程序时实现上述的导航模型分布式训练方法。

41、第四方面，本技术实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时使处理器实现上述的导航模型分布式训练方法。

42、本技术实施例提供了一种导航模型分布式训练方法、装置、计算机设备及存储介质，其中，导航模型分布式训练方法包括：获取环境图像库并调用初始编码模型，环境图像库包括若干环境图像以及与环境图像一一对应的自然语言指令；基于环境图像与自然语言指令对初始编码模型进行训练得到目标编码模型，其中，目标编码模型输出表征环境图像的描述性编码，且描述性编码与环境图像对应的自然语言指令相匹配；基于目标编码模型生成全局导航模型，其中，全局导航模型用于根据环境图像生成动作策略；将全局导航模型分别下发至智能体集群中的每一智能体，以使每一智能体基于对应的本地数据对全局导航模型中的模型参数进行训练得到第一训练参数；获取各智能体反馈的第一训练参数，并根据第一训练参数对全局导航模型进行参数更新以生成目标导航模型。本技术实施例通过将全局导航模型部署至多个分布式的智能体，允许各智能体基于本地的数据进行训练，无需将智能体的本地数据集中至一个中心节点，避免了数据的中心化存储和传输，从而提高了各智能体本地数据的隐私安全性。而且将全局导航模型部署至各智能体可以更好地结合智能体本身所处环境和使用场景进行训练，使得智能体可以学习更多的本地化特征和场景，更好地适应不同的环境和任务需求。另外，由于各个智能体均是针对本地数据对下发的全局导航模型进行训练，使得全局模型参数的更新在不同智能体中独立进行，使得模型更新的过程相对易于监控和调试。

技术特征：

1.一种导航模型分布式训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一训练参数对所述全局导航模型进行参数更新以生成目标导航模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述根据各所述智能体对应的第一训练参数生成聚合参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标编码模型生成全局导航模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述环境图像与所述自然语言指令对所述初始编码模型进行训练得到目标编码模型之前，还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述环境图像与所述自然语言指令对所述初始编码模型进行训练得到目标编码模型，包括：

8.一种导航模型分布式训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的导航模型分布式训练方法。

技术总结
本申请涉及机器视觉领域，公开了一种导航模型分布式训练方法、装置、设备及介质，方法包括：基于环境图像与自然语言指令对初始编码模型进行训练得到目标编码模型；基于目标编码模型生成用于根据环境图像生成动作策略的全局导航模型；将全局导航模型分别下发至智能体集群的每一智能体，以使每一智能体基于本地数据对全局导航模型进行模型参数训练得到第一训练参数；获取各智能体反馈的第一训练参数以对全局导航模型进行参数更新以生成目标导航模型，因此本申请无需将智能体的本地数据集中中心节点，确保智能体本地数据的隐私安全，可以结合智能体所处环境，以学习更多的本地化特征和场景，适应不同的环境和任务需求。

技术研发人员：张旭龙,王健宗
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)