一种基于路径规划的深度强化学习智能车行为决策方法

专利查询2023-5-10 119

1.本发明涉及智能车自动驾驶技术领域，具体是涉及一种基于路径规划的深度强化学习智能车行为决策方法。

背景技术：

2.面对日益严峻的交通拥堵、行车安全以及环境污染等问题，自动驾驶智能车已经成为汽车行业发展的必然趋势，同时自动驾驶对产业繁荣、经济发展、科技创新、社会进步起到推动作用，全球主要国家纷纷将其上升到国家战略高度。智能车的系统架构主要包含感知模块、决策模块与控制模块，其中决策模块作为无人车“大脑”，是自主驾驶系统智能性的直接体现，对车辆的行驶安全性和整车性能起着决定性作用。
3.传统的智能车决策根据驾驶规则、交通法规等建立规则库，通过分析大量的驾驶数据，对不同的驾驶情况制定相应的行为决策。但是由于交通环境复杂多变，人为设置的规则库一方面无法覆盖交通环境的所有状态，另一方面在遇到规则无法匹配的状态时，车辆难以做出正确的决策甚至失去控制。
4.随着人工智能、芯片硬件的发展，对于传统智能车决策存在的问题，可以通过强化学习不断试错学习的方式，训练出从传感器数据到驾驶动作映射的端到端驾驶系统。强化学习(rl)是一种典型的经验驱动、自主学习方法，可以使智能体在与环境的交互中通过不断地“试错”、反馈学习以寻找完成任务的最优策略。这种最优策略是通过奖励函数来进行引导学习的，而学习过程中稀疏奖励会导致智能体无法学到好的策略，因此奖励函数的设计是强化学习的重要环节，如何合理设计奖励函数也是强化学习目前的主要研究方向之一。
5.因此，需要提供一种基于路径规划的深度强化学习智能车行为决策方法，旨在解决上述问题。

技术实现要素：

6.针对现有技术存在的不足，本发明实施例的目的在于提供一种基于路径规划的深度强化学习智能车行为决策方法，以解决上述背景技术中的问题。
7.为实现上述目的，本发明提供如下技术方案：
8.一种基于路径规划的深度强化学习智能车行为决策方法，包括如下步骤：
9.s1、将任务建模为马尔科夫决策过程；
10.s2、搭建深度强化学习算法；
11.s3、智能体输入设计；
12.s4、智能体输出设计；
13.s5、搭建训练网络结构；
14.s6、对任务环境进行路径规划；
15.s7、改进奖励函数；
16.s8、训练和测试智能体模型。
17.作为本发明进一步的方案，所述s2中深度强化学习采用深度q网络算法，包括环境交互和网络更新，通过经验回放和固定目标网络来处理完成迭代流程以实现从感知输入到车辆行为输出的端到端映射。
18.作为本发明进一步的方案，所述s3中的车辆智能体的输入包括当前车辆环境信息以及自车的状态信息。
19.作为本发明进一步的方案，所述s4中的智能体的输出为车辆的行为决策，包括直行、左转和右转三种典型行为。
20.作为本发明进一步的方案，所述s5中训练网络结构采用深度神经网络，所述训练网络结构包括序贯卷积神经网络和全连接神经网络。
21.作为本发明进一步的方案，所述s6中路径规划根据任务需求，采用astar算法规划出车辆智能体路径，并按照一定距离采样出车辆行进航路点列表。
22.作为本发明进一步的方案，所述s7中改进的奖励函数采用路径航路点作为车辆引导奖励，以便车辆智能体获得及时奖惩。
23.作为本发明进一步的方案，所述s8中智能体模型的训练过程包括：
24.将图像输入到模型中，模型输出动作指令以及相应动作奖惩；
25.通过损失函数梯度下降的反向传递来调整网络的参数，以此获得最优策略。
26.作为本发明进一步的方案，所述s8中的智能体模型的测试为将完成训练的智能体放到新的驾驶环境中，测试其泛化性，并分析模型的性能。
27.综上所述，本发明实施例与现有技术相比具有以下有益效果：
28.1.本发明设计了一种符合真实驾驶场景的深度强化学习自动驾驶决策模型，解决由于传统决策方法规则库难以构建的问题，同时强化学习使得车辆智能体能够处理复杂环境中的决策问题，简化了传统智能车的系统架构，实现直接从感知输入到车辆行为输出的端到端映射，为智能车自动驾驶提供了新的研究思路。
29.2.本发明针对智能车自动驾驶任务，采用了图像作为输入，并处理为语义分割信息，语义分割能够减少图像由于光照、阴影、遮挡等因素所产生的问题，而且缩小了虚拟仿真世界到真实世界的差距，简化了从仿真场景到实际应用的过程。
30.3.本发明根据车辆的实际驾驶需求，在车辆的路径规划的基础上，通过采样航路点设计引导奖励，改进奖励函数，解决了强化学习稀疏奖励带来的训练速度慢、难以收敛的问题，同时将路径规划考虑到模型的建立中，也提高了智能体模型的实际泛化能力。
31.为更清楚地阐述本发明的结构特征和功效，下面结合附图与具体实施例来对本发明进行详细说明。
附图说明
32.图1为发明实施例的系统流程图。
33.图2为发明实施例的车辆智能体模型框图。
34.图3为发明实施例的qon算法更新流程图。
35.图4为发明实施例的深度神经网络结构示意图。
36.图5为发明实施例航向偏角结构示意图。
37.图6为发明实施例的奖励函数的改进框图。
38.图7为发明实施例的训练过程奖励值曲线示意图。
具体实施方式
39.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
40.以下结合具体实施例对本发明的具体实现进行详细描述。
41.在本发明的一个实施例中，参见图1，所述一种基于路径规划的深度强化学习智能车行为决策方法包括如下步骤：
42.s1、将任务建模为马尔科夫决策过程；
43.s2、搭建深度强化学习算法；
44.s3、智能体输入设计；
45.s4、智能体输出设计；
46.s5、搭建训练网络结构；
47.s6、对任务环境进行路径规划；
48.s7、改进奖励函数；
49.s8、训练和测试智能体模型。
50.在本实施例中，马尔科夫决策过程可用五元组(s,a,p,r,γ)表示，s为状态空间，a为动作空间，p为状态转移概率，r为奖励函数，γ为累积回报折扣因子；深度强化学习采用深度q网络(deep q-network，dqn)算法，主要包括环境交互和网络的更新，通过经验回放、固定目标网络等处理完成迭代流程，实现从感知输入到车辆行为输出的端到端映射；车辆智能体的输入主要包括当前车辆环境信息以及自车的状态信息，考虑到模型训练的快速性和特征提取难易程度，选择车载摄像头处理后的语义分割图像类型作为模型的输入；智能体的输出就是车辆的行为决策，考虑到深度强化学习dqn算法输出离散的决策动作，并且不针对车辆倒车停车的情况，选择了直行、左转和右转三种典型行为；对于车辆驾驶任务奖励函数通常包括碰撞奖惩、速度奖惩以及任务完成奖惩，此类稀疏奖励导致智能体训练速度慢且难以收敛，因此需要进一步改进奖励函数，采用路径航路点作为车辆引导奖励，使得车辆智能体能够时刻获得及时奖惩，加快了智能体的训练速度并且能找到最优行为策略。
51.在本发明的一个实施例中，参见图1，任务场景是仿真环境中一段包含直行、换道和右转的道路，要求车辆在任务环境中安全的自主决策行驶。马尔可夫决策过程是强化学习的数学基础，用五元组(s,a,p,r,γ)表示，任务建模主要包括状态空间s中状态的选择、动作空间a中动作的选择以及动作值函数q
π
(s,a)的确定。状态定义为车辆摄像头采集到的图像，动作定义为车辆的行动指令。强化学习的目的就是给定一个马尔科夫决策过程，找到最优策略π，使得系统获得最大的累积回报g
t
。累积回报的定义为：
[0052][0053]
其中，g
t
为t时刻的累积回报，表示从t时刻开始到本回合结束奖励值的总和，r
t+1
为t+1时刻的奖励值，γ(γ∈[0,1])为累积回报的折扣因子。那么在t时刻就可以根据式
(1)用策略π来计算累积回报g
t
，然而如果策略π是随机的，则状态序列是随机的，那么得到的累积回报也是随机的，就不能用g
t
来衡量当前状态的价值。但累积回报的数学期望是确定的，可以用期望来定义当前状态的价值，简称值函数，用v
π
(s)表示策略π下状态s的值函数：
[0054][0055]
其中，e
π
表示策略π的期望，s
t
表示t时刻的状态。与状态值函数对应的还有状态-行为值函数，定义了当前动作的价值，简称动作值函数，用q
π
(s,a)表示：
[0056][0057]
其中，a
t
表示t时刻的动作。智能体模型训练学习过程就是训练出最优的动作值函数，用q
*
(s,a)表示：
[0058][0059]
最优动作值函数代表训练完成的模型，输入给车辆智能体模型当前图像，就可以决策输出此图像状态下最优的车辆行为命令，随后车辆与环境交互得到新的状态，不断迭代此过程最终完成任务。
[0060]
在本发明的一个实施例中，参见图2和图3，所述s2中车辆深度强化学习模型的框架如图2所示，车辆智能体根据初始状态决策出行为，车辆执行动作命令与环境交互后产生新的状态，并返回新状态以及动作相应的奖励，通过损失函数来更新模型的参数，使得模型不断学习得到最优策略。
[0061]
车辆深度强化学习模型的更新流程如图3所示，主要包括环境交互和小批量训练更新网络两大部分。在环境交互之前，先对容量为n的经验回放池、当前q网络和目标q网络初始化。随后开始环境交互，首先环境提供初始化状态s给当前q网络，当前q网络返回目前动作价值最大的动作arg maxq(s,a；θ)，随后得到奖励r以及新的状态s
′
，并将交互得到的转移样本(s,a,r,s
′
)储存到经验回放池中，新状态成为当前状态，不断进行此过程填充经验回放池。
[0062]
模型采用了固定目标q网络的处理方式，当前q网络和目标q网络是结构相同但参数不同的网络，在训练时通过目标q网络来估算真实值，通过当前q网络来进行优化，满足一定的条件后将当前q网络复制给目标q网络。训练时从经验回放池中随机拿出固定小批量的经验，将(s,a)输入到当前q网络，当前q网络输出状态为s动作为a时的值q(s,a；θ)；将s
′
输入到目标q网络，目标q网络输出状态为s
′
动作为最优动作a
′
时的值然后连同奖励r计算targetq；最后计算损失，dqn损失函数l(θ)表达式为：
[0063][0064]
l(θ)＝e[(targetq-q(s,a；θ))2]
ꢀꢀꢀ
(6)
[0065]
损失函数l(θ)的意义在于使得当前的q值逼近targetq值，接下计算l(θ)关于θ的梯度，并使用自适应时刻估计方法(adam)进行梯度下降来更新网络参数θ。
[0066]
在本发明的一个实施例中，所述智能体的输入包括两种信息，即车辆前置摄像头采集到的图像以及车辆的状态信息。车辆前置摄像头采集到原始图像为彩色480*360*3的rgb图像，图像的分辨率为480*360，颜色通道数为3通道。其中，rgb图像包含了轮廓、边缘、颜色、纹理和形状等底层特征，一些细节信息比如道路的纹理、天空的云朵、墙壁的颜色等对于驾驶场景理解并无帮助，还会影响模型训练的速度。
[0067]
语义分割可以将驾驶场景中细节信息进行剔除但又保留底层特征与高层语义之间的关系，语义分割在训练的快速性和收敛性同样性能更优，因此选择原始rgb图像处理后的480*360*3语义分割图像作为模型的图像输入。车辆状态信息选择了速度(v)、位置坐标(x，y，z)作为输入。
[0068]
在本发明的一个实施例中，所述s4中的智能体的输出即车辆的决策，车辆的控制量包括油门(throttle∈[0,1])、刹车(brake∈[0,1])和方向盘(steering∈[-1,1])，根据车辆的控制量设计行为决策的输出。由于dqn算法输出是离散的行为决策，因此设计了包括直行(forward)、左转(forward_left)、右转(forward_right)三种能够覆盖大多数场景的行为决策。并在保证车辆行驶安全性、平稳性的条件下，分别对每种行为决策的控制量进行了合适的取值，智能体模型的决策输出具体取值如表1所示：
[0069][0070]
表1
[0071]
其中，油门的控制量设置为0.5，能够保证行驶速度的同时减小了行驶波动。刹车控制量设置为0代表不主动刹车，可以依靠车辆自身来减速，由于训练过程会出现中车辆智能体避免得到负奖励而选择停止不动的情况，因此设置刹车控制量设置为0。方向盘控制量为负代表向左打方向盘，方向盘控制量为正代表向右打方向盘，控制量绝对值都设置为0.5，能够使车辆平稳的左转和右转。
[0072]
在进行行为决策时，输出的是直行、左转和右转三个行为中的一个，随后将行为命令对应的控制量分别给到油门、刹车和方向盘，完成对车辆的控制。
[0073]
在本发明的一个实施例中，参见图4，所述s5中深度神经网络具有强特征提取能力，因此训练网络结构采用深度神经网络，主要包括以下两部分：序贯(sequential)卷积神经网络、全连接神经网络(dnn)。如图3所示，图像输入经过sequential卷积神经网络处理后，再输入到全连接神经网络最终输出行为决策。
[0074]
第一部分的sequential卷积神经网络主要包括了卷积层(conv)和池化层(pool)，依次是卷积层1(conv1)、池化层1(pool1)、卷积层2(conv2)、池化层2(pool2)、卷积层3(conv3)、池化层3(pool3)共6层结构。每个卷积层包括了64个尺寸为3*3的卷积核，每个池化层采用平均池化方式，平均池化窗口尺寸为5*5步长为3。
[0075]
sequential卷积神经网络的最后一层pool3将通过展平层(flatten)的展平处理作为全连接神经网络的输入。全连接神经网络的结构包括展平层(flatten)、隐藏层(dense)和输出层(output)，输出层的3个神经元对应三种行为决策。
[0076]
在本发明的一个实施例中，所述s6中的astar算法是常用的路径查找算法，控制性能好并且准确度高，因此选用astar算法来进行任务环境的路径规划。astar算法是启发式搜索算法，通过代价函数进行路径规划，表达式如下：
[0077]
f(n)＝g(n)+h(n)
ꢀꢀꢀ
(7)
[0078]
其中，f(n)表示节点n的综合优先级，遍历节点时会选取综合优先级最高的节点，g(n)表示起始节点到节点n的代价，h(n)表示节点n到目标节点的估计代价。
[0079]
astar路径规划主要流程就是维护open集合和closed集合，其中open集合中存放待拓展节点，closed集合中存放的是已拓展节点。对任务环境进行路径规划时，从车辆初始位置向附近的子节点进行拓展，代价函数f(n)会根据子节点的综合优先级从open集合中选取优先级最高的节点为下一父节点，并将这个节点存放在closed集合中。反复迭代此过程，直到找到目标节点，然后依次返回父节点，最终规划出一条路径。完成路径规划之后，按照一定距离进行采样航路点，考虑到车辆的平稳性以及奖励的连续性，选择每间隔4m采样一次航路点，得到航路点列表。
[0080]
在本发明的一个实施例中，参见图5和图6，为了减少稀疏奖励对于车辆智能体训练速度以及最终收敛效果的影响，除了基本的碰撞奖惩、速度奖惩之外，将航向偏角奖惩作为车辆引导奖励改进奖励函数，使得车辆智能体训练过程中时刻获得及时奖惩，加快了智能体的训练速度并且能快速收敛找到最优行为策略。
[0081]
如图5所示，为车辆航向偏角示意图，α是航向偏角，θ
car
是车辆航向角，θ
waypoint
是航路点夹角，三者关系如下：
[0082]
α＝|θ
car-θ
waypoint
|
ꢀꢀꢀ
(8)
[0083]
其中θ
car
代表车辆当前行驶方向与地图坐标系x轴夹角，θ
waypoint
代表下一个航路点与地图坐标系x轴的夹角，α代表当前车辆航向与航路点期望航向的偏差，考虑到车辆行驶方向的不同，取值为车辆航行角和航路点夹角之差的绝对值。
[0084]
有了航向偏角接下来设计航向偏角奖惩，奖励函数的改进框图如图6所示，虚线框内为改进的车辆航向偏角奖惩r1。首先经过astar算法进行路径规划，然后采样得到航路点信息θ
waypoint
，通过车辆传感器得到车辆的航向角信息θ
car
，通过公式(8)计算出航向偏角α，最终得到航向偏角奖惩r1：
[0085][0086]
此处进行了航向偏角奖惩的归一缩放处理，有利于提升训练性能。航向偏角α越小，航向偏角奖励越大，代表车辆能够很好的跟踪航路点。
[0087]
强化学习依靠车辆智能体与环境不断地“试错”、反馈学习以寻找完成任务的最优驾驶策略，“试错”的存在就不可避免的会发生各种碰撞情况，而实际情况是不允许车辆发生任何碰撞，因此在训练过程中无论车辆发生什么碰撞都必须要给予重大的惩罚，这样才能使车辆智能体学会安全驾驶策略。通过车辆传感器获取到车辆碰撞信息，设计了碰撞奖惩r2：
[0088][0089]
同样对碰撞奖惩进行归一缩放处理，车辆一旦发生碰撞就给与-1的惩罚，无碰撞情况则不给与任何奖惩。车辆要求能够在安全条件下快速平稳的到达目的地，根据车辆所在道路的限速标准设计了速度奖惩r3：
[0090][0091]
也要对速度奖惩进行归一缩放处理，speed为车辆当前速度，speed_limit为当前道路限速数值，k(k∈(0,1])为限速系数为了调整车辆不同风格的行驶速度，训练时将k取值为1，速度奖惩在速度低于限速时奖励较低，在高于限速时奖励最大值为1，使得车辆智能体能够学到合理的控制车速。
[0092]
车辆总奖励是航向偏角奖惩r1、碰撞奖惩r2、速度奖惩r3三者的加权总和，用r表示：
[0093]
r＝k1r1+k2r2+k3r3ꢀꢀꢀ
(12)
[0094]
其中k1、k2、k3分别是航向偏角奖惩、碰撞奖惩、速度奖惩的权重系数，权重系数满足1＝k1+k2+k3。改进的奖励函数，充分考虑了车辆行驶的工况，减少了稀疏奖励的影响，能够使车辆智能体找到最优行为策略。
[0095]
在本发明的一个实施例中，参见图7，在完成前述的步骤后，接下来进行智能体模型的训练和测试。训练选择了carla车辆仿真平台的town03地图，该地图包含任务所需场景。训练5000回合时终止了训练，训练奖励值曲线如图7所示，可以观察到在3000回合附近时奖励值增加趋势变缓，在4300回合附近时奖励值已经趋于收敛。在训练前期，车辆智能体经常发生碰撞，速度波动极大；中期观察到碰撞现象远少于前期，速度波动减小；训练后期碰撞较少出现，车辆智能体已经逐渐可以到达目的地，速度控制也比较平稳。在训练终止前一段时间内，车辆几乎无碰撞，速度平稳，每个回合都可以从起点安全快速到达目的地。
[0096]
训练好的模型保存后，进行了深度强化学习模型泛化性的测试。测试地图选择了carla车辆仿真平台的town05地图，测试路段场景类似于训练的town03地图，测试过程中车辆智能体同样可以从设点的起点安全快速到达终点，说明模型泛化性良好，并没有发生过拟合现象。
[0097]
基于以上，本发明提出的一种基于路径规划的深度强化学习智能车行为决策方法具有良好的性能和简单的结构，能够实现从传感器数据到驾驶动作映射的最优行为决策，并且减少了训练时间，提升了模型的泛化性，证明了方法的有效性。
[0098]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种基于路径规划的深度强化学习智能车行为决策方法，其特征在于，包括如下步骤：s1、将任务建模为马尔科夫决策过程；s2、搭建深度强化学习算法；s3、智能体输入设计；s4、智能体输出设计；s5、搭建训练网络结构；s6、对任务环境进行路径规划；s7、改进奖励函数；s8、训练和测试智能体模型。2.根据权利要求1所述的基于路径规划的深度强化学习智能车行为决策方法，其特征在于，所述s2中深度强化学习采用深度q网络算法，包括环境交互和网络更新，通过经验回放和固定目标网络来处理完成迭代流程以实现从感知输入到车辆行为输出的端到端映射。3.根据权利要求1所述的基于路径规划的深度强化学习智能车行为决策方法，其特征在于，所述s3中的车辆智能体的输入包括当前车辆环境信息以及自车的状态信息。4.根据权利要求1所述的基于路径规划的深度强化学习智能车行为决策方法，其特征在于，所述s4中的智能体的输出为车辆的行为决策，包括直行、左转和右转三种典型行为。5.根据权利要求1所述的基于路径规划的深度强化学习智能车行为决策方法，其特征在于，所述s5中训练网络结构采用深度神经网络，所述训练网络结构包括序贯卷积神经网络和全连接神经网络。6.根据权利要求1所述的基于路径规划的深度强化学习智能车行为决策方法，其特征在于，所述s6中路径规划根据任务需求，采用astar算法规划出车辆智能体路径，并按照一定距离采样出车辆行进航路点列表。7.根据权利要求1所述的基于路径规划的深度强化学习智能车行为决策方法，其特征在于，所述s7中改进的奖励函数采用路径航路点作为车辆引导奖励，以便车辆智能体获得及时奖惩。8.根据权利要求1所述的基于路径规划的深度强化学习智能车行为决策方法，其特征在于，所述s8中智能体模型的训练过程包括：将图像输入到模型中，模型输出动作指令以及相应动作奖惩；通过损失函数梯度下降的反向传递来调整网络的参数，以此获得最优策略。9.根据权利要求8所述的基于路径规划的深度强化学习智能车行为决策方法，其特征在于，所述s8中的智能体模型的测试为将完成训练的智能体放到新的驾驶环境中，测试其泛化性，并分析模型的性能。

技术总结
本发明公开了一种基于路径规划的深度强化学习智能车行为决策方法，属于智能车自动驾驶技术领域，所述一种基于路径规划的深度强化学习智能车行为决策方法包括将任务建模为马尔科夫决策过程，搭建深度强化学习算法，智能体输入设计，智能体输出设计，搭建训练网络结构，对任务环境进行路径规划，改进奖励函数，以及训练和测试智能体模型，具有处理复杂决策、简化仿真场景到实际应用的过程、解决了训练速度慢和难以收敛的问题以及提高智能体模型的实际泛化能力的优点。实际泛化能力的优点。实际泛化能力的优点。

技术研发人员：赵海艳靳英豪卢星昊刘万陈虹
受保护的技术使用者：吉林大学
技术研发日：2021.12.01
技术公布日：2022/3/8

专利

最新回复(0)