本发明涉及车辆自动驾驶,尤其是涉及一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法。
背景技术:
1、前向碰撞作为交通事故的主导类型。为应对此严峻挑战,研究界聚焦于道路基础设施优化、交通管理体系升级及高级驾驶辅助系统(adas)的研发展开广泛探索。特别地,多家汽车制造商已将前向碰撞预警系统(fcw)的集成视为车辆标配,视其为有效遏制碰撞事故的关键技术路径之一。
2、早期fcw算法的核心在于雷达数据的运用,但受限于雷达高昂的成本与有限的探测范围。随着计算机视觉与深度学习技术的飞跃,基于视觉的adas取得了突破性进展。现有企业凭借视频数据驱动的fcw技术,已实现了超过80%的预警准确率。此外,很多国家的政策导向,如要求商用车辆安装车载记录仪,为fcw系统的广泛普及奠定了坚实基础,预示了前向碰撞预警技术应用的广阔前景。
3、当前,视觉辅助驾驶系统的研究主流聚焦于利用目标检测算法的输出构建车辆碰撞风险评估模型。此类方法通过分析视频帧中的目标检测边界框,提取诸如交通参与者的相对距离和速度变化等关键参数,进而计算如碰撞时间(ttc)等即时指标以触发预警机制。然而,目标检测算法固有的漏检与误检现象,直接影响了ttc计算的准确性,且这类方法仅限于响应即时风险指标,缺乏对未来风险事件的预见性评估。此外,其高度依赖于目标检测算法的精确性,并需对视频序列的每一帧进行密集处理,这显著增加了车载计算平台的负担,对前向碰撞预警系统的实时响应能力构成了挑战。
4、因此,现有技术中提出了轻量级的风险场景识别方法,运动轮廓图具有计算简单、对算力要求低、提取驾驶场景信息完整,适合作为轻量级危险驾驶场景识别模型的输入,通过轻量级深度神经网络来学习提取运动轮廓图中物体的运动特征,从而评估和预测碰撞风险。但是由于部分轻量级的风险场景识别方法不依赖目标检测算法,且像素平均的操作计算简单,对终端算力要求低;同时,该方法采取深度神经网络提取风险特征,而非对特定风险指标(如ttc)进行计算,对数据噪音会有更高的容忍度。但也存在弊端,由于使用了深度神经网络建模,方法对建模样本的多样性和丰富性有极高的要求,但事实上,从自然驾驶数据中收集驾驶场景的完整性和丰富度有限,加上碰撞是小概率偶发事件,从中能够提取的高风险驾驶场景更是在数量上、在丰富度和多样性上都不太能满足深度学习的要求,因此,探索有效的驾驶场景数据增强方法成为该方法是否能够成功的关键。专利cn117746098a公开了一种基于gan数据增强的高风险驾驶场景辨识方法,该方法采用gan模型进行数据增强,基于gan的视觉生成技术虽然在图像清晰度上表现良好,但细节捕捉不足,且易出现模式崩溃和同质化,导致gan训练过程不稳定。此外,由于其从噪声生成图像的特性,生成过程不可控,限制了生成的运动轮廓图的多样性,进而影响了模型在复杂场景下的性能。因此,有必要提出一种能够得到具有清晰轨迹语义且生成过程可控的数据增强方法。
技术实现思路
1、本发明的目的就是为了提供一种实现生成过程可控的、有效的运动轮廓图数据增强目的的基于轨迹编辑和图像翻译的驾驶场景数据增强方法。
2、本发明的目的可以通过以下技术方案来实现:
3、一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,包括以下步骤:
4、获取车载前向视频,从视频图像中检测交通参与者,并按照时序关系提取和组合所述交通参与者的轨迹,形成对象轨迹图;
5、采用轨迹编辑方式对所述对象轨迹图进行扩充,获得扩展对象轨迹图;
6、基于所述对象轨迹图和扩展对象轨迹图构造对象轨迹图集,输入预先训练好的图像翻译模型中,生成增强后的运动轮廓图集;
7、所述图像翻译模型的训练步骤包括:
8、基于车载前向视频,生成运动轮廓图;
9、基于所述运动轮廓图和对象轨迹图建立对象轨迹图-运动轮廓图的图对数据集,输入图像翻译模型中进行训练,直至训练结束。
10、进一步地,所述形成对象轨迹图的步骤包括:
11、交通对象的检测:设车载前向视频的共有n帧视频图像,对于任意一帧视频图像ii(1≤i≤n),采用目标检测算法检测出所有交通对象;
12、交通对象的表达:将实际存在交互作用的交通对象记作oj(1≤j≤m),并取每个交通对象检测区域中间的水平线段代表交通对象,其中m为视频图像中存在交互作用的交通对象个数,xj_l、yj、xj_r、yj表示表示水平线段左、右两个端点的坐标;
13、区域的划分:将车辆前进方向的分为正前方区域、左前方区域和右前方区域,其中正前方区域属于冲突区域,左前方区域和右前方区域属于非冲突区域;
14、分区信息组织:基于所述正前方区域、左前方区域和右前方区域创建长度为n的一维数组遍历每一区域内的所有水平线段设置一维数组坐标在[xj_l,xj_r]区间范围内的像素值,其中,c代表类别,取l、f或r,l、f、r分别表示左前方、正前方、右前方,像素值的设置为:
15、
16、式中,表示一维数组第k个像素点的像素值,oc为各个区域形成的交通对象的运动轨迹;
17、交通对象的轨迹提取:将按照视频图像帧的先后顺序从上而下排列,分别组成车辆左前方区域、正前方区域和右前方区域的交通对象的运动轨迹,表示为:
18、
19、式中,otl、otf、otr分别代表车辆左前方区域、正前方区域和右前方区域的交通对象的运动轨迹;
20、对象轨迹图的生成:将otl、otf、otr分别使用g、r、b三个通道叠加在一起,形成最终的对象轨迹图;
21、对象轨迹图的标定:对对象轨迹图进行数据标定,分为非冲突驾驶场景与高风险驾驶场景两种标签类型。
22、进一步地,所述轨迹编辑方式包括轨迹擦除、轨迹替换和轨迹平移中的一种或多种。
23、进一步地,所述轨迹擦除的步骤包括:
24、获取rgb格式对象轨迹图i,预设数量n的最小值minn和最大值maxn,随机选择一定数量的矩形区域{r1,r2,…,rn};
25、对于每个选定的矩形区域ri,预设长度w的最小值minw和最大值maxw,设置矩形的高度为h,其中长度w为预设的最小值和最大值之间的随机值;
26、对于每个选定的矩形区域ri,移除蓝色通道b和绿色通道g,仅保留红色通道r,即:i(ri)=i(ri)(r)。
27、进一步地,所述轨迹替换的步骤包括:
28、将所述对象轨迹图分为非危险驾驶场景s1和危险驾驶场景s2两组;
29、提取每个对象轨迹图的像素向量xi,使用欧几里得距离作为度量距离,应用knn算法来识别每个对象轨迹图在其组内的k个最近邻图像{xi1,xi2,…,xik},其中欧几里得距离d(xi,xj)表示如下:
30、
31、随机选取任意一个最近邻图像xik,将其与原始图像xi的蓝色通道b和绿色通道g进行轨迹替换,即:
32、进一步地,所述轨迹平移的步骤包括:
33、将所述对象轨迹图i转换为张量t,预设平移像素数最小值min和最大值max,并随机决定图像平移的方向d和像素距离p,其中min≤p≤max,d包括上、下、左、右;
34、利用边缘复制填充技术对所述张量t进行扩展,得到填充后的张量tpadded;
35、基于所述填充后的张量tpadded进行平移操作,得到张量tshifted,并被转换为pil图像格式ishifted,其中张量tshifted表示为:
36、tshifted=shift(tpadded,d,p)
37、式中,shift表示平移操作。
38、进一步地,所述图像翻译模型基于pix2pixhd模型进行构建。
39、进一步地,所述生成运动轮廓图的步骤包括:
40、关注区域设定:设车载前向视频的共有n帧视频图像,对于任意一帧视频图像ii(1≤i≤n),取中间位置的矩形区域,记作图像
41、图像信息压缩:将图像仅是垂直方向的压缩,将同一垂直方向的像素点取平均值,得到像素线
42、物体运动轨迹提取:将像素线按照视频图像帧的先后顺序从上而下排列,组成运动轮廓图mpm;
43、建模样本标定:对运动轮廓图mpm进行数据标定,分为非冲突驾驶场景与高风险驾驶场景两种标签类型。
44、进一步地,所述建立对象轨迹图-运动轮廓图的图对数据集的步骤包括:
45、将来自同一驾驶场景的对象轨迹图和运动轮廓图组成一个图对;
46、对每一图对中的运动轮廓图进行m次环境因素的变化,以将1个图对扩展为m+1个图对;
47、对每一图对中的运动轮廓图进行n次几何变换,以将1个图对扩展为n+1个图对;
48、基于扩展后的图对,组成所述对象轨迹图-运动轮廓图的图对数据集。
49、进一步地,还包括采用评估步骤,具体包括:
50、构建风险识别模型;
51、将所述增强后的运动轮廓图集输入风险识别模型中,获得预测的风险分类概率,并采用auc值、模型准确率、精准度、召回率和f1值进行评估,获得评估结果。
52、与现有技术相比,本发明具有以下有益效果:
53、(1)本发明针对运动轮廓图中的线条语义不明导致危险驾驶场景识别精度的有限性,结合了对象轨迹图的轨迹语义清晰的特点,采用图像翻译模型将对象轨迹图翻译为运动轮廓图,通过图像翻译,运动轮廓图能够有效继承对象轨迹图中交通参与者的轨迹主体,提高运动轮廓图的轨迹语义清晰度和提升交通环境的多样化,实现运动轮廓图数据增强的目的。
54、(2)本发明充分利用了对象轨迹图和运动轮廓图各自的优势,采用三种轨迹编辑方式来对对象轨迹图进行扩充,包括轨迹擦除、轨迹替换和轨迹平移。轨迹擦除是模仿对象检测算法在恶劣交通环境下失效的情况;轨迹替换是在保留关键冲突对象的前提下替换周围非关键交通参与者,以此来提升驾驶场景的丰富性和多样性;轨迹平移主要用于模仿车载相机安装位置的变化。通过对对象轨迹图进行轨迹编辑能够实现驾驶场景在一定程度上的丰富和扩充。
55、(3)本发明通过图像翻译模型将对象轨迹图翻译为运动轮廓图,还可以增加天空、道路、路旁建筑等各种丰富的交通背景细节,能够进一步提升交通环境的多样化,从而提高危险驾驶场景识别精度。
1.一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,其特征在于,所述形成对象轨迹图的步骤包括:
3.根据权利要求1所述的一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,其特征在于,所述轨迹编辑方式包括轨迹擦除、轨迹替换和轨迹平移中的一种或多种。
4.根据权利要求3所述的一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,其特征在于,所述轨迹擦除的步骤包括:
5.根据权利要求3所述的一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,其特征在于,所述轨迹替换的步骤包括:
6.根据权利要求3所述的一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,其特征在于,所述轨迹平移的步骤包括:
7.根据权利要求1所述的一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,其特征在于,所述图像翻译模型基于pix2pixhd模型进行构建。
8.根据权利要求1所述的一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,其特征在于,所述生成运动轮廓图的步骤包括:
9.根据权利要求1所述的一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,其特征在于,所述建立对象轨迹图一运动轮廓图的图对数据集的步骤包括:
10.根据权利要求1所述的一种基于轨迹编辑和图像翻译的驾驶场景数据增强方法,其特征在于,还包括采用评估步骤,具体包括:
