决策规划方法、决策规划模型的训练方法及相关装置与流程

专利查询2月前  32


本技术涉及智能驾驶,具体而言,涉及一种决策规划方法、决策规划模型的训练方法及相关装置。


背景技术:

1、感知智能和认知智能是智能驾驶领域的两大核心技术。认知智能包括决策规划,其可以在智能驾驶过程中,提前对车辆的行驶行为进行决策和规划,例如,变道、拥堵启停、绕行避让等。相关技术采用规则匹配的方式进行决策规划,但是车辆行驶的场景种类繁多且复杂多变,这种决策规划方式不但需要大量人力物力去收集设置规则,而且灵活性差,常常在车辆行驶过程中产生顿挫感,严重影响驾驶体验和驾驶安全。


技术实现思路

1、本技术提供了一种决策规划方法、决策规划模型的训练方法及相关装置,能够解决用规则匹配的方式进行决策规划所导致的技术问题:(1)需要大量人力物力去收集设置规则;(2)灵活性差,常常在车辆行驶过程中产生顿挫感,严重影响驾驶体验和驾驶安全。

2、具体的技术方案如下:

3、第一方面,本技术实施例提供了一种决策规划方法,所述方法通过决策规划模型实现,所述决策规划模型包括编码模块和解码模块,所述方法包括:

4、获取第一输入信息,其中,所述第一输入信息包括第一自车信息、第一他车信息、第一静态地标信息、第一车道级导航信息和第一交通灯信息,所述第一他车信息包括第一自车周围第一他车的信息,所述第一静态地标信息包括所述第一自车周围的静态地标信息,所述第一车道级导航信息包括对所述第一自车进行导航的车道级导航信息,所述第一交通灯信息包括所述第一自车前方的第一交通灯的信息;

5、基于所述编码模块对所述第一输入信息进行注意力编码,获得第一目标向量;

6、基于所述解码模块和第一查询向量对所述第一目标向量进行解码,获得第一输出信息,其中:

7、所述第一输出信息包括所述第一自车的第一规划轨迹、所述第一规划轨迹的评分、所述第一规划轨迹对应的第一规划决策;和/或,所述第一输出信息包括第一他车的第二规划轨迹、所述第二规划轨迹的评分、所述第二规划轨迹对应的第二规划决策;

8、所述第一查询向量包括第一目标查询向量和/或第一对象决策查询向量,其中,所述第一目标查询向量包括所述第一自车待规划驶入的第一目标车道的向量和/或所述第一他车待规划驶入的第二目标车道的向量;所述第一对象决策查询向量包括所述第一自车驶入所述第一目标车道时所对应决策的向量和/或所述第一他车驶入所述第二目标车道时所对应决策的向量。

9、通过上述方案可知,本技术实施例可以将包含第一自车信息、第一他车信息、第一静态地标信息、第一车道级导航信息和第一交通灯信息的第一输入信息输入到决策规划模型中,先由该决策规划模型的编码模块对该第一输入信息进行编码获得第一目标向量,再由该决策规划模型的解码模块第一查询向量对第一目标向量进行解码,获得包括第一自车的第一规划轨迹、第一规划轨迹的评分、第一规划轨迹对应的第一规划决策的第一输出信息,和/或,包括第一他车的第二规划轨迹、所述第二规划轨迹的评分、所述第二规划轨迹对应的第二规划决策的第一输出信息,以便后续根据第一输出信息确定第一自车最终的第一规划轨迹和对应的第一规划决策。由此可知,本技术实施例可以利用预先训练好的ai(artificial intelligence,人工智能)模型自动进行决策规划,并且第一输入信息是第一自车行驶过程中自动采集的实时数据,所以ai模型会结合实时的实际驾驶环境自动学习,做出具有更加安全、舒适、高效驾驶效果的规划决策,而不需要依赖大量人力物力去收集设置规则,更不会存在因规则与实际驾驶环境有偏差而导致产生顿挫感。

10、在第一方面的第一种可能的实现方式中,所述基于所述编码模块对所述第一输入信息进行注意力编码,获得第一目标向量包括:

11、基于所述编码模块对所述第一输入信息中的各个信息分别进行实例内注意力编码,获得各个实例内向量;

12、基于所述编码模块对各个所述实例内向量进行实例间注意力编码,获得所述第一目标向量。

13、通过上述方案可知,本技术实施例通过采用注意力机制,对第一输入信息进行实例内编码和实例间编码,从而不仅可以得到单个输入信息自身的信息,还可以得到多个输入信息之间的关联信息,为解码模块做出更加贴合专家驾驶效果的决策规划提供了夯实的基础。

14、在第一方面的第二种可能的实现方式中,获取所述第一静态地标信息和所述第一车道级导航信息的方法包括:

15、从车道级导航地图信息中获取所述第一静态地标信息和所述第一车道级导航信息;或者,

16、获取地标感知模型的输入数据,基于所述地标感知模型对所述地标感知模型的输入数据进行处理,获得目标时刻的道路环境图像中包含的所述第一静态地标信息,以及根据拓展导航路径确定所述第一车道级导航信息,其中,所述地标感知模型的输入数据包括所述目标时刻的所述道路环境图像和所述目标时刻的第一本地位姿,所述第一本地位姿包括采集所述道路环境图像时所述第一自车的全局位姿相对于目标起始点时全局位姿的偏移量,所述目标时刻为所述第一自车在所述拓展导航路径上采集所述道路环境图像时的任一时刻,所述拓展导航路径为车载导航路径的拓展路径。

17、通过上述方案可知,在具有车道级导航地图信息的情况下,本技术实施例可以直接从车道级导航地图信息中获取第一静态地标信息和第一车道级导航信息,在没有车道级导航地图信息或者不依赖车道级导航地图信息的情况下,本技术实施例可以利用地标感知模型自动感知出第一静态地标信息,并基于车载导航路径的拓展路径确定第一车道级导航信息,从而实现重感知轻地图的效果。

18、在第一方面的第三种可能的实现方式中,所述地标感知模型的生成方法包括:

19、获取地标训练样本集,其中,所述地标训练样本集中的每个地标训练样本包括:道路环境样本图像组、所述道路环境样本图像组中每帧所述道路环境样本图像对应的第二本地位姿以及每帧所述道路环境样本图像对应的地标真值,所述道路环境图像组包括连续的多帧道路环境样本图像;

20、利用所述地标训练样本集进行训练获得所述地标感知模型。

21、通过上述方案可知,由于地标感知模型是基于多个道路环境样本图像组训练的,在机器学习过程中,对每帧道路环境样本图像进行地标信息感知时,会参考其所在道路环境样本图像组中的前后相邻帧(可以是相邻一帧,也可以是相邻多帧),所以在基于地标感知模型对单帧道路环境图像进行地标感知时,可以感知出该道路环境图像中不可见的静态地标信息,包括当前图像不包含或无法清晰显示的静态地标信息,如传感器检测范围以外的静态地标信息、被遮挡的静态地标信息、由于图像质量不佳(夜晚、炫光场景等)而无法清晰显示的静态地标信息等,从而实现不可见亦可得的感知效果。

22、在第一方面的第四种可能的实现方式中,所述决策规划模型的训练方法包括:

23、获取决策规划训练样本集,其中,所述决策规划训练样本集中的每个决策规划训练样本包括第二自车信息、第二他车信息、第二静态地标信息、第二车道级导航信息和第二交通灯信息,所述第二他车信息包括第二自车周围第二他车的信息,所述第二静态地标信息包括所述第二自车周围的静态地标信息,所述第二车道级导航信息包括对所述第二自车进行导航的车道级导航信息,所述第二交通灯信息包括所述第二自车前方的第二交通灯的信息;

24、基于初始的所述决策规划模型中的所述编码模块对所述决策规划训练样本集进行注意力编码,获得每个所述决策规划训练样本对应的第二目标向量;

25、针对每个所述决策规划训练样本,基于初始的所述决策规划模型中的所述解码模块和第二查询向量对所述第二目标向量进行解码,获得每个决策规划训练样本对应的第二输出信息,其中:

26、所述第二输出信息包括所述第二自车的第三规划轨迹、所述第三规划轨迹的评分、所述第三规划轨迹对应的第三规划决策;和/或,所述第二输出信息包括第二他车的第四规划轨迹、所述第四规划轨迹的评分、所述第四规划轨迹对应的第四规划决策;

27、所述第二查询向量包括第二目标查询向量和/或第二对象决策查询向量,其中,

28、所述第二目标查询向量包括所述第二自车待规划驶入的第三目标车道的向量和/或所述第二他车待规划驶入的第四目标车道的向量;所述第二对象决策查询向量包括所述第二自车驶入所述第三目标车道时所对应决策的向量和/或所述第二他车驶入所述第四目标车道时所对应决策的向量;

29、基于评分最高的所述第三规划轨迹、所述第二自车的轨迹真值、评分最高的所述第四规划轨迹和所述第二他车的轨迹真值,计算损失值;

30、当所述损失值大于预设损失阈值时,调整初始的所述决策规划模型的模型参数,并继续基于所述决策规划训练样本集训练调整模型参数后的所述决策规划模型,直至所述损失值小于或者等于所述预设损失阈值时,获得最终的所述决策规划模型。

31、在第一方面的第五种可能的实现方式中,目标自车信息包括所述第一自车信息和/或所述第二自车信息;当所述目标自车信息为所述第一自车信息时,目标自车为所述第一自车,目标他车信息为所述第一他车信息,目标他车为所述第一他车,目标交通灯信息为所述第一交通灯信息,目标交通灯为所述第一交通灯;当所述目标自车信息为所述第二自车信息时,目标自车为所述第二自车,目标他车信息为所述第二他车信息,目标他车为所述第二他车,目标交通灯信息为所述第二交通灯信息,目标交通灯为所述第二交通灯,所述方法包括:

32、所述目标自车信息包括所述目标自车在预设历史时间窗口内相对自身当前时刻的位置、所述目标自车在所述预设历史时间窗口内的全局朝向角、所述目标自车在所述预设历史时间窗口内的实际车速、所述目标自车的车身尺寸类型、所述目标自车在所述当前时刻的跟车档位、所述目标自车的目标车速中至少一项;和/或,

33、所述目标他车信息包括所述目标他车在所述预设历史时间窗口内相对所述目标自车当前时刻的位置、所述目标他车在所述预设历史时间窗口内的全局朝向角、所述目标他车在所述预设历史时间窗口内的实际车速、所述目标他车在所述预设历史时间窗口内相对所述目标自车当前时刻的朝向角、所述目标他车的车身尺寸类型中至少一项;和/或,

34、所述目标交通灯信息包括在所述预设历史时间窗口内,所述目标交通灯的类型和/或点亮状态。

35、第二方面,本技术实施例提供了一种决策规划模型的训练方法,所述方法包括:

36、获取决策规划训练样本集,其中,所述决策规划训练样本集中的每个决策规划训练样本包括第二自车信息、第二他车信息、第二静态地标信息、第二车道级导航信息和第二交通灯信息,所述第二他车信息包括第二自车周围第二他车的信息,所述第二静态地标信息包括所述第二自车周围的静态地标信息,所述第二车道级导航信息包括对所述第二自车进行导航的车道级导航信息,所述第二交通灯信息包括所述第二自车前方的第二交通灯的信息;

37、基于初始的决策规划模型中的编码模块对所述决策规划训练样本集进行注意力编码,获得每个所述决策规划训练样本对应的第二目标向量;

38、针对每个所述决策规划训练样本,基于所述初始的决策规划模型中的解码模块和第二查询向量对所述第二目标向量进行解码,获得每个决策规划训练样本对应的第二输出信息,其中:

39、所述第二输出信息包括所述第二自车的第三规划轨迹、所述第三规划轨迹的评分、所述第三规划轨迹对应的第三规划决策;和/或,所述第二输出信息包括第二他车的第四规划轨迹、所述第四规划轨迹的评分、所述第四规划轨迹对应的第四规划决策;

40、所述第二查询向量包括第二目标查询向量和/或第二对象决策查询向量,其中,

41、所述第二目标查询向量包括所述第二自车待规划驶入的第三目标车道的向量和/或所述第二他车待规划驶入的第四目标车道的向量;所述第二对象决策查询向量包括所述第二自车驶入所述第三目标车道时所对应决策的向量和/或所述第二他车驶入所述第四目标车道时所对应决策的向量;

42、基于评分最高的所述第三规划轨迹、所述第二自车的轨迹真值、评分最高的所述第四规划轨迹和所述第二他车的轨迹真值,计算损失值;

43、当所述损失值大于预设损失阈值时,调整所述初始的决策规划模型的模型参数,并继续基于所述决策规划训练样本集训练调整模型参数后的决策规划模型,直至所述损失值小于或者等于所述预设损失阈值时,获得最终的决策规划模型。

44、通过上述方案可知,本技术实施例可以通过对专家驾驶过程中的第二自车信息、第二他车信息、第二静态地标信息、第二车道级导航信息和第二交通灯信息进行训练,并在训练过程中通过专家实际驾驶数据(即真值)不断对决策规划模型参数进行调整,获得能够自动做出专家级决策规划的决策规划模型,即后续可以利用该训练好的决策规划模型结合实时的实际驾驶环境自动学习,做出具有更加安全、舒适、高效驾驶效果的规划决策,而不需要依赖大量人力物力去收集设置规则,更不会存在因规则与实际驾驶环境有偏差而导致产生顿挫感。

45、第三方面,本技术实施例提供了一种决策规划装置,所述装置通过决策规划模型实现,所述决策规划模型包括编码模块和解码模块,所述装置包括:

46、获取单元,用于获取第一输入信息,其中,所述第一输入信息包括第一自车信息、第一他车信息、第一静态地标信息、第一车道级导航信息和第一交通灯信息,所述第一他车信息包括第一自车周围第一他车的信息,所述第一静态地标信息包括所述第一自车周围的静态地标信息,所述第一车道级导航信息包括对所述第一自车进行导航的车道级导航信息,所述第一交通灯信息包括所述第一自车前方的第一交通灯的信息;

47、编码单元,用于基于所述编码模块对所述第一输入信息进行注意力编码,获得第一目标向量;

48、解码单元,用于基于所述解码模块和第一查询向量对所述第一目标向量进行解码,获得第一输出信息,其中:

49、所述第一输出信息包括所述第一自车的第一规划轨迹、所述第一规划轨迹的评分、所述第一规划轨迹对应的第一规划决策;和/或,所述第一输出信息包括第一他车的第二规划轨迹、所述第二规划轨迹的评分、所述第二规划轨迹对应的第二规划决策;

50、所述第一查询向量包括第一目标查询向量和/或第一对象决策查询向量,其中,所述第一目标查询向量包括所述第一自车待规划驶入的第一目标车道的向量和/或所述第一他车待规划驶入的第二目标车道的向量;所述第一对象决策查询向量包括所述第一自车驶入所述第一目标车道时所对应决策的向量和/或所述第一他车驶入所述第二目标车道时所对应决策的向量。

51、在第三方面的第一种可能的实现方式中,所述编码单元包括:

52、第一编码模块,用于基于所述编码模块对所述第一输入信息中的各个信息分别进行实例内注意力编码,获得各个实例内向量;

53、第二编码模块,用于基于所述编码模块对各个所述实例内向量进行实例间注意力编码,获得所述第一目标向量。

54、在第三方面的第二种可能的实现方式中,所述获取单元包括:第一获取模块或者第二获取模块;

55、所述第一获取模块,用于从车道级导航地图信息中获取所述第一静态地标信息和所述第一车道级导航信息;

56、所述第二获取模块,用于获取地标感知模型的输入数据,基于所述地标感知模型对所述地标感知模型的输入数据进行处理,获得目标时刻的道路环境图像中包含的所述第一静态地标信息,以及根据拓展导航路径确定所述第一车道级导航信息,其中,所述地标感知模型的输入数据包括所述目标时刻的所述道路环境图像和所述目标时刻的第一本地位姿,所述第一本地位姿包括采集所述道路环境图像时所述第一自车的全局位姿相对于目标起始点时全局位姿的偏移量,所述目标时刻为所述第一自车在所述拓展导航路径上采集所述道路环境图像时的任一时刻,所述拓展导航路径为车载导航路径的拓展路径。

57、在第三方面的第三种可能的实现方式中,所述第二获取模块,还用于在获取地标感知模型的输入数据之前,获取地标训练样本集,其中,所述地标训练样本集中的每个地标训练样本包括:道路环境样本图像组、所述道路环境样本图像组中每帧所述道路环境样本图像对应的第二本地位姿以及每帧所述道路环境样本图像对应的地标真值,所述道路环境图像组包括连续的多帧道路环境样本图像;利用所述地标训练样本集进行训练获得所述地标感知模型。

58、在第三方面的第四种可能的实现方式中,所述装置还包括:

59、训练单元,用于训练所述决策规划模型;

60、所述训练单元包括:

61、第三获取模块,用于获取决策规划训练样本集,其中,所述决策规划训练样本集中的每个决策规划训练样本包括第二自车信息、第二他车信息、第二静态地标信息、第二车道级导航信息和第二交通灯信息,所述第二他车信息包括第二自车周围第二他车的信息,所述第二静态地标信息包括所述第二自车周围的静态地标信息,所述第二车道级导航信息包括对所述第二自车进行导航的车道级导航信息,所述第二交通灯信息包括所述第二自车前方的第二交通灯的信息;

62、编码模块,用于基于初始的所述决策规划模型中的所述编码模块对所述决策规划训练样本集进行注意力编码,获得每个所述决策规划训练样本对应的第二目标向量;

63、解码模块,用于针对每个所述决策规划训练样本,基于初始的所述决策规划模型中的所述解码模块和第二查询向量对所述第二目标向量进行解码,获得每个决策规划训练样本对应的第二输出信息,其中:

64、所述第二输出信息包括所述第二自车的第三规划轨迹、所述第三规划轨迹的评分、所述第三规划轨迹对应的第三规划决策;和/或,所述第二输出信息包括第二他车的第四规划轨迹、所述第四规划轨迹的评分、所述第四规划轨迹对应的第四规划决策;

65、所述第二查询向量包括第二目标查询向量和/或第二对象决策查询向量,其中,

66、所述第二目标查询向量包括所述第二自车待规划驶入的第三目标车道的向量和/或所述第二他车待规划驶入的第四目标车道的向量;所述第二对象决策查询向量包括所述第二自车驶入所述第三目标车道时所对应决策的向量和/或所述第二他车驶入所述第四目标车道时所对应决策的向量;

67、计算模块,用于基于评分最高的所述第三规划轨迹、所述第二自车的轨迹真值、评分最高的所述第四规划轨迹和所述第二他车的轨迹真值,计算损失值;

68、调整训练模块,用于当所述损失值大于预设损失阈值时,调整初始的所述决策规划模型的模型参数,并继续基于所述决策规划训练样本集训练调整模型参数后的所述决策规划模型,直至所述损失值小于或者等于所述预设损失阈值时,获得最终的所述决策规划模型。

69、在第三方面的第五种可能的实现方式中,目标自车信息包括所述第一自车信息和/或所述第二自车信息;当所述目标自车信息为所述第一自车信息时,目标自车为所述第一自车,目标他车信息为所述第一他车信息,目标他车为所述第一他车,目标交通灯信息为所述第一交通灯信息,目标交通灯为所述第一交通灯;当所述目标自车信息为所述第二自车信息时,目标自车为所述第二自车,目标他车信息为所述第二他车信息,目标他车为所述第二他车,目标交通灯信息为所述第二交通灯信息,目标交通灯为所述第二交通灯,所述方法包括:

70、所述目标自车信息包括所述目标自车在预设历史时间窗口内相对自身当前时刻的位置、所述目标自车在所述预设历史时间窗口内的全局朝向角、所述目标自车在所述预设历史时间窗口内的实际车速、所述目标自车的车身尺寸类型、所述目标自车在所述当前时刻的跟车档位、所述目标自车的目标车速中至少一项;和/或,

71、所述目标他车信息包括所述目标他车在所述预设历史时间窗口内相对所述目标自车当前时刻的位置、所述目标他车在所述预设历史时间窗口内的全局朝向角、所述目标他车在所述预设历史时间窗口内的实际车速、所述目标他车在所述预设历史时间窗口内相对所述目标自车当前时刻的朝向角、所述目标他车的车身尺寸类型中至少一项;和/或,

72、所述目标交通灯信息包括在所述预设历史时间窗口内,所述目标交通灯的类型和/或点亮状态。

73、通过上述方案可知,本技术实施例可以将包含第一自车信息、第一他车信息、第一静态地标信息、第一车道级导航信息和第一交通灯信息的第一输入信息输入到决策规划模型中,先由该决策规划模型的编码模块对该第一输入信息进行编码获得第一目标向量,再由该决策规划模型的解码模块第一查询向量对第一目标向量进行解码,获得包括第一自车的第一规划轨迹、第一规划轨迹的评分、第一规划轨迹对应的第一规划决策的第一输出信息,和/或,包括第一他车的第二规划轨迹、所述第二规划轨迹的评分、所述第二规划轨迹对应的第二规划决策的第一输出信息,以便后续根据第一输出信息确定第一自车最终的第一规划轨迹和对应的第一规划决策。由此可知,本技术实施例可以利用预先训练好的ai模型自动进行决策规划,并且第一输入信息是第一自车行驶过程中自动采集的实时数据,所以ai模型会结合实时的实际驾驶环境自动学习,做出具有更加安全、舒适、高效驾驶效果的规划决策,而不需要依赖大量人力物力去收集设置规则,更不会存在因规则与实际驾驶环境有偏差而导致产生顿挫感。

74、第四方面,本技术实施例提供了一种决策规划模型的训练装置,所述装置包括:

75、获取单元,用于获取决策规划训练样本集,其中,所述决策规划训练样本集中的每个决策规划训练样本包括第二自车信息、第二他车信息、第二静态地标信息、第二车道级导航信息和第二交通灯信息,所述第二他车信息包括第二自车周围第二他车的信息,所述第二静态地标信息包括所述第二自车周围的静态地标信息,所述第二车道级导航信息包括对所述第二自车进行导航的车道级导航信息,所述第二交通灯信息包括所述第二自车前方的第二交通灯的信息;

76、编码单元,用于基于初始的决策规划模型中的编码模块对所述决策规划训练样本集进行注意力编码,获得每个所述决策规划训练样本对应的第二目标向量;

77、解码单元,用于针对每个所述决策规划训练样本,基于所述初始的决策规划模型中的解码模块和第二查询向量对所述第二目标向量进行解码,获得每个决策规划训练样本对应的第二输出信息,其中:

78、所述第二输出信息包括所述第二自车的第三规划轨迹、所述第三规划轨迹的评分、所述第三规划轨迹对应的第三规划决策;和/或,所述第二输出信息包括第二他车的第四规划轨迹、所述第四规划轨迹的评分、所述第四规划轨迹对应的第四规划决策;

79、所述第二查询向量包括第二目标查询向量和/或第二对象决策查询向量,其中,

80、所述第二目标查询向量包括所述第二自车待规划驶入的第三目标车道的向量和/或所述第二他车待规划驶入的第四目标车道的向量;所述第二对象决策查询向量包括所述第二自车驶入所述第三目标车道时所对应决策的向量和/或所述第二他车驶入所述第四目标车道时所对应决策的向量;

81、计算单元,用于基于评分最高的所述第三规划轨迹、所述第二自车的轨迹真值、评分最高的所述第四规划轨迹和所述第二他车的轨迹真值,计算损失值;

82、调整训练单元,用于当所述损失值大于预设损失阈值时,调整所述初始的决策规划模型的模型参数,并继续基于所述决策规划训练样本集训练调整模型参数后的决策规划模型,直至所述损失值小于或者等于所述预设损失阈值时,获得最终的决策规划模型。

83、通过上述方案可知,本技术实施例可以通过对专家驾驶过程中的第二自车信息、第二他车信息、第二静态地标信息、第二车道级导航信息和第二交通灯信息进行训练,并在训练过程中通过专家实际驾驶数据(即真值)不断对决策规划模型参数进行调整,获得能够自动做出专家级决策规划的决策规划模型,即后续可以利用该训练好的决策规划模型结合实时的实际驾驶环境自动学习,做出具有更加安全、舒适、高效驾驶效果的规划决策,而不需要依赖大量人力物力去收集设置规则,更不会存在因规则与实际驾驶环境有偏差而导致产生顿挫感。

84、第五方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面任一可能的实现方式或者第二方面任一可能的实现方式所述的方法。

85、第六方面,本技术实施例提供了一种电子设备,电子设备包括:

86、一个或多个处理器;

87、所述处理器与存储装置耦合,所述存储装置用于存储一个或多个程序;

88、当一个或多个程序被一个或多个处理器执行,使得电子设备实现如第一方面任一可能的实现方式或者第二方面任一可能的实现方式所述的方法。

89、第七方面,本技术实施例提供了一种车辆,车辆包含如第三方面任一可能的实现方式或者第四方面任一可能的实现方式所述的装置,或者包含如第六方面所述的电子设备。

90、第八方面,本技术实施例提供了一种计算机程序产品,所述计算机程序产品中包含有指令,当指令在计算机或处理器上运行时,使得计算机或处理器执行第一方面任一可能的实现方式或者第二方面任一可能的实现方式所述的方法。


技术特征:

1.一种决策规划方法,其特征在于,所述方法通过决策规划模型实现,所述决策规划模型包括编码模块和解码模块,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述编码模块对所述第一输入信息进行注意力编码,获得第一目标向量包括:

3.根据权利要求1所述的方法,其特征在于,获取所述第一静态地标信息和所述第一车道级导航信息的方法包括:

4.根据权利要求3所述的方法,其特征在于,所述地标感知模型的生成方法包括:

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述决策规划模型的训练方法包括:

6.根据权利要求5所述的方法,其特征在于,目标自车信息包括所述第一自车信息和/或所述第二自车信息;当所述目标自车信息为所述第一自车信息时,目标自车为所述第一自车,目标他车信息为所述第一他车信息,目标他车为所述第一他车,目标交通灯信息为所述第一交通灯信息,目标交通灯为所述第一交通灯;当所述目标自车信息为所述第二自车信息时,目标自车为所述第二自车,目标他车信息为所述第二他车信息,目标他车为所述第二他车,目标交通灯信息为所述第二交通灯信息,目标交通灯为所述第二交通灯,所述方法包括:

7.一种决策规划模型的训练方法,其特征在于,所述方法包括:

8.一种决策规划装置,其特征在于,所述装置通过决策规划模型实现,所述决策规划模型包括编码模块和解码模块,所述装置包括:

9.根据权利要求8所述的装置,其特征在于,所述编码单元包括:

10.根据权利要求8所述的装置,其特征在于,所述获取单元包括:第一获取模块或者第二获取模块;

11.根据权利要求10所述的装置,其特征在于,所述第二获取模块,还用于在获取地标感知模型的输入数据之前,获取地标训练样本集,其中,所述地标训练样本集中的每个地标训练样本包括:道路环境样本图像组、所述道路环境样本图像组中每帧所述道路环境样本图像对应的第二本地位姿以及每帧所述道路环境样本图像对应的地标真值,所述道路环境图像组包括连续的多帧道路环境样本图像;利用所述地标训练样本集进行训练获得所述地标感知模型。

12.根据权利要求8-11中任一项所述的装置,其特征在于,所述装置还包括:

13.根据权利要求12所述的装置,其特征在于,目标自车信息包括所述第一自车信息和/或所述第二自车信息;当所述目标自车信息为所述第一自车信息时,目标自车为所述第一自车,目标他车信息为所述第一他车信息,目标他车为所述第一他车,目标交通灯信息为所述第一交通灯信息,目标交通灯为所述第一交通灯;当所述目标自车信息为所述第二自车信息时,目标自车为所述第二自车,目标他车信息为所述第二他车信息,目标他车为所述第二他车,目标交通灯信息为所述第二交通灯信息,目标交通灯为所述第二交通灯,所述方法包括:

14.一种决策规划模型的训练装置,其特征在于,所述装置包括:

15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一项或者权利要求7所述的方法。

16.一种电子设备,其特征在于,所述电子设备包括:

17.一种车辆,其特征在于,所述车辆包含如权利要求8-13中任一项或权利要求14所述的装置,或者包含如权利要求16所述的电子设备。


技术总结
本申请公开一种决策规划方法、决策规划模型的训练方法及相关装置,方法通过决策规划模型实现,方法包括:获取第一输入信息,第一输入信息包括第一自车信息、第一他车信息、第一静态地标信息、第一车道级导航信息和第一交通灯信息;基于编码模块对第一输入信息进行注意力编码,获得第一目标向量;基于解码模块和第一查询向量对第一目标向量进行解码,获得第一输出信息,第一输出信息包括第一自车的第一规划轨迹、第一规划轨迹的评分、第一规划轨迹对应的第一规划决策;和/或,第一输出信息包括第一他车的第二规划轨迹、第二规划轨迹的评分、第二规划轨迹对应的第二规划决策。本申请利用AI模型进行决策规划,能够达到安全、舒适、高效的驾驶效果。

技术研发人员:蒋竺希,张驰,顾阳,高继扬
受保护的技术使用者:魔门塔(苏州)科技有限公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)