一种基于对抗学习的路网信号控制策略生成方法与流程

本发明涉及路网控制策略，尤其涉及一种基于对抗学习的路网信号控制策略生成方法。

背景技术：

1、路口和路径的信号控制策略是保障路口通行效率、均衡路径通行负载的重要手段，。网联环境下通常是自主性、动态性的路径选择系统，由各个车载或者移动终端设备的软件，根据路网的预计通行时间，综合选择最优的通行路线，但通常不是路网交通管控的最优。但由于路网规模的复杂性、车辆数的众多、交通需求的动态随机性，无法解决双方信息实时全部打通、大规模路网求解维数灾难的问题，因此单一的中心侧交通诱导无法直接应用。

2、传统的交通控制方法网通常以单路口或单条线路为单元进行协调，往往对路口的动态组合关注较少，缺少路网区域层面的动态时空关联分析和策略配合。强化学习方法是新型的交通控制方法，但更关注于单路口，对于相邻路口的协调关系的机制融合不够深入，需要策略层面的指导，形成中心、边缘的协同。

3、例如，一种在中国专利文献上公开的“一种基于路网划分和边界流量控制的信号灯管控方法”,其公告号：cn114038216b，公开了包括采用基于最大协同度的路网划分方法将城市全域交通路网划分为子路网簇，并将子路网的每个路口视为一个智能体，设计基于深度神经网络的多智能体强化学习方法，通过子网内智能体执行动作过程中与周围交通环境不断交互来学习生成子路网内信号灯最优协同控制策略。同时通过标定子路网宏观基本图模型，对子路网边界路段及路口进行流量控制，进一步优化子路网交通运行状态和通行效率，但是该方案没有考虑到预测中心和边缘的协同作用造成控制策略不够准确。

技术实现思路

1、为了解决现有技术中路网信号控制策略不够准确的问题，本发明提供一种基于对抗学习的路网信号控制策略生成方法，通过交通预测与策略生成器的对抗博弈，生成路网信号策略。

2、为了实现上述目的，本发明提供如下技术方案：

3、一种基于对抗学习的路网信号控制策略生成方法，包括：获取泛在网联交通数据进行时空特征提取得到特征参数序列；

4、获取真实信号方案进行解码提取得到真实信号方案特征，结合特征参数序列进行策略生成得到第一策略；

5、确定第一策略的第一信号方案特征并结合特征参数序列确定均衡损失，通过判断第一策略的准确性生成判别损失；

6、根据特征参数序列结合真实信号方案特征生成预测损失，结合判别损失和均衡损失确定最优控制策略。充分利用泛在网络数据和车侧的边缘计算能力，通过信号控制策略调控的方式改变路径阻抗，无需在中心端获得车辆级的通行需求，相较于中心端路径诱导的方式，避免了数据量庞大、求解维度高、出行者自主性强的问题；能够充分挖掘交通数据的内在规律和关联性，从而生成高价值的特征参数序列；通过策略生成步骤和策略评估步骤的不断对抗，可以促使生成器不断优化其生成的控制策略，以欺骗判别器。这种机制能够显著提高生成策略的质量，使其更加接近或优于真实信号方案。

7、作为优选的，进行时空特征提取时，采用空间图卷积模型，利用数据集中各参数的特征分布进行参数标准化，生成对应特征参数序列。空间图卷积层通过节点间的卷积操作，能够捕获局部空间关系，而时空卷积层则进一步引入时间维度，实现对时空数据的全面建模。消除不同特征之间的量纲影响，便于灵活的组合不同特征。

8、作为优选的，包括建立路网图模型，将泛在网联交通数据中的路口作为图模型的边，将路段作为图模型的节点；通过图卷积模型确定节点特征能够直观且精确的的反映交通网络的拓扑结构，包括道路之间的连接关系、交叉口的布局。不仅描述了道路之间的物理连接，还隐含了交通流的流向和可能的交互点。

9、作为优选的，特征参数序列中包括交通参数时空特征，包括使用注意力机制自适应捕获空间节点关联性。不仅考虑了交通参数的时间变化特征，还融入了空间特征，能够更全面准确的反映交通系统的动态性和复杂性。能够自适应地捕获不同空间节点之间的关联性，能够动态地调整不同节点之间的权重，使得在特征提取过程中更加关注对结果影响较大的节点。

10、作为优选的，获取真实信号方案后，对真实信号方案编码进行相位向量化，建立相位向量队列；对相位向量队列解码得到真实信号方案特征。通过将复杂的信号波形转换为向量形式，从而有效的压缩数据量，并保留重要的相位特征。

11、作为优选的，包括采用空间图卷积模型和时间序列模型作为交通时空预测模型，并将真实信号方案特征与第一序列作为输入。可以充分利用这些特征中包含的先验知识和有用信息，为预测模型提供有力的支持，将真实信号特征与第一序列信息融合，可以进一步提升模型的预测能力，使得预测结果更加准确和可靠。

12、作为优选的，生成判别损失时，对第一策略通过源判别器判断，源判别器的输入为真实信号方案编码，输出为信号方案源标签。在多种信号源并存的情况下，可以清晰的划分信号来源，减少隐信号混淆造成错误判断的误差。

13、作为优选的，确定均衡损失时，包括对第一信号方案特征和交通参数时空特征中的参数进行求差，根据求差结果确定均衡损失。能够量化第一信号方案特征和交通参数时空特征之间的差异，进而精确的衡量信号方案与实际交通状况之间的偏离程度。

14、作为优选的，生成预测损失时，包括对真实信号方案特征和交通参数时空特征中的参数进行求差，根据求差结果确定预测损失。能够量化评估预测结果与实际情况之间的偏差，不仅能够考虑到信号方案的整体趋势，还涵盖了局部细节和时空变化。

15、作为优选的，确定预测损失时和确定均衡损失时的时空预测模型具有相同的参数；时空预测模型的输出为未来若干步长的交通参数。确保模型在预测与均衡之间的一致性，减少了因参数差异引入的不确定性，当数据或任务发生变化时，能够更快的适应并保持稳定性能。

16、本发明具有如下优点：

17、(1)充分利用泛在网络数据和车侧的边缘计算能力，通过信号控制策略调控的方式改变路径阻抗，无需在中心端获得车辆级的通行需求，相较于中心端路径诱导的方式，避免了数据量庞大、求解维度高、出行者自主性强的问题；(2)在模型训练过程中，引入了对抗学习方法，挖掘了交通动态博弈均衡中的知识表征，相较于现有的深度学习方法，考虑了路网关联关系、信号策略与时空演变，具有更好的稳定性和准确性。

技术特征：

1.一种基于对抗学习的路网信号控制策略生成方法，其特征在于，包括：获取泛在网联交通数据进行时空特征提取得到特征参数序列；

2.根据权利要求1所述的一种基于对抗学习的路网信号控制策略生成方法，其特征在于，进行时空特征提取时，采用空间图卷积模型，利用数据集中各参数的特征分布进行参数标准化，生成对应特征参数序列。

3.根据权利要求2所述的一种基于对抗学习的路网信号控制策略生成方法，其特征在于，包括建立路网图模型，将泛在网联交通数据中的路口作为图模型的边，将路段作为图模型的节点；通过图卷积模型确定节点特征。

4.根据权利要求1或2或3所述的一种基于对抗学习的路网信号控制策略生成方法，其特征在于，特征参数序列中包括交通参数时空特征，包括使用注意力机制自适应捕获空间节点关联性。

5.根据权利要求1或2或3所述的一种基于对抗学习的路网信号控制策略生成方法，其特征在于，获取真实信号方案后，对真实信号方案编码进行相位向量化，建立相位向量队列；对相位向量队列解码得到真实信号方案特征。

6.根据权利要求1或2所述的一种基于对抗学习的路网信号控制策略生成方法，其特征在于，包括采用空间图卷积模型和时间序列模型作为交通时空预测模型，并将真实信号方案特征与第一序列作为输入。

7.根据权利要求5所述的一种基于对抗学习的路网信号控制策略生成方法，其特征在于，生成判别损失时，对第一策略通过源判别器判断，源判别器的输入为真实信号方案编码，输出为信号方案源标签。

8.根据权利要求4所述的一种基于对抗学习的路网信号控制策略生成方法，其特征在于，确定均衡损失时，包括对第一信号方案特征和交通参数时空特征中的参数进行求差，根据求差结果确定均衡损失。

9.根据权利要求8所述的一种基于对抗学习的路网信号控制策略生成方法，其特征在于，生成预测损失时，包括对真实信号方案特征和交通参数时空特征中的参数进行求差，根据求差结果确定预测损失。

10.根据权利要求9所述的一种基于对抗学习的路网信号控制策略生成方法，其特征在于，确定预测损失时和确定均衡损失时的时空预测模型具有相同的参数；时空预测模型的输出为未来若干步长的交通参数。

技术总结
本发明公开了一种基于对抗学习的路网信号控制策略生成方法，包括：获取泛在网联交通数据进行时空特征提取得到特征参数序列；获取真实信号方案进行解码提取得到真实信号方案特征，结合特征参数序列进行策略生成得到第一策略；确定第一策略的第一信号方案特征并结合特征参数序列确定均衡损失，通过判断第一策略的准确性生成判别损失；根据特征参数序列结合真实信号方案特征生成预测损失，结合判别损失和均衡损失确定最优控制策略。充分利用泛在网络数据和车侧的边缘计算能力，通过信号控制策略调控的方式改变路径阻抗，无需在中心端获得车辆级的通行需求，相较于中心端路径诱导的方式，避免了数据量庞大、求解维度高、出行者自主性强的问题。

技术研发人员：翟潜,金峻臣,周俊杰,吴昊旻,沈斌
受保护的技术使用者：浙江中控信息产业股份有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)