一种基于3D卷积网络多特征融合的疲劳检测方法及系统

专利查询2023-10-8 138

一种基于3d卷积网络多特征融合的疲劳检测方法及系统
技术领域
1.本发明涉及疲劳驾驶检测领域，特别是涉及一种基于3d卷积网络多特征融合的疲劳检测方法及系统。

背景技术：

2.每年因为交通事故造成的人员伤亡不断增加，其中由于疲劳驾驶造成的交通事故率高达百分之十二。调查指出很多司机在驾驶过程中不能及时意识到自己处于疲劳状态，进而造成严重的后果。
3.在疲劳驾驶检测上，主要提出了三种不同的方案：基于驾驶员生理特征、基于车辆运动特征和基于视觉特征。基于生理特征一般需要穿戴相关的仪器设备，检测眼电波信号(eog)、心电波信号(ecg)、肌电波信号(emg)、脑电波信号(eeg)等来判断驾驶员状态。尽管该方法具有很高的准确率，但是由于是侵入性的，会对驾驶产生干扰，且设备昂贵难以普及。基于车辆运动特征则通过各种传感器获取车辆的运动信息，如方向盘转角、车辆摆动幅度、制动模式等，该方法是非侵入性的，不会对驾驶员产生任何干扰。但是该方法容易受到道路环境和驾驶员驾驶习惯的影响，因此准确率不高，而且需要安装很多传感器，也不利于大规模推广。
4.基于视觉特征的方法是近年来的研究热点。该方法只需要使用相机等工具录制视频，即可检测识别驾驶员当前状态。已经提出并研究了许多用于疲劳检测的“基于视觉特征的方法”。这些方法使用的视觉特征包括眼睛状态信息，头部运动，打哈欠，和面部表情等。通过计算诸如闭眼百分比(perclos)、闭眼时间(ecd)和眨眼频率(fec)之类的值来使用眼神状态来检测驾驶员是否疲劳；或者通过估计头部姿势以及检测打哈欠等方法来检测疲劳。然而这些基于手工特征的方法无法融合不同特征之间的信息，也没有考虑到可能存在的眼部或嘴部受到遮挡的问题，而且单一靠固定阈值来判断疲劳，忽略了不同个体之间眨眼频率、打哈欠时间、头部运动的差异，鲁棒性较差，识别精度不足。
5.基于卷积神经网络的方法能有效提取图像的空间信息，不过无法捕捉到视频中的时间特征，然而这种时间特征对疲劳状态的检测至关重要。一种基于二维卷积神经网络和长短期记忆网络(lstm)的方法，将提取的空间特征输入lstm中以获取时间信息，但是lstm存在体量较大、无法并行等问题。

技术实现要素：

6.本发明的目的是提供一种基于3d卷积网络多特征融合的疲劳检测方法及系统，能够提高疲劳检测的精度。
7.为实现上述目的，本发明提供了如下方案：
8.一种基于3d卷积网络多特征融合的疲劳检测方法，包括：
9.利用动作识别数据集对x3d卷积神经网络进行预训练，确定动作分类模型；所述动作识别数据集包括：kinetics400数据集；
10.利用动作分类模型中的网络权值对所述x3d卷积神经网络进行初始化，并利用驾驶员视频数据对所述初始化后的x3d卷积神经网络进行训练，确定初始的疲劳检测模型；所述驾驶员视频数据包括：驾驶员在疲劳状态下的视频数据和驾驶员在非疲劳状态下的视频数据；
11.对驾驶员视频数据进行预处理；所述预处理包括：人脸检测及跟踪、数据增强、眼部图像及嘴部图像截取和头部光流图像提取；眼部图像以15帧/秒速度提取，一个时间周期共45帧图像；嘴部图像以及头部光流图像以5帧/秒速度提取，一个时间周期共15帧图像；
12.在所述初始的疲劳检测模型中添加注意力层，构建疲劳检测分类网络；所述注意力层用于将初始的疲劳检测模型提取的预处理后的图像相应的多模态特征信息进行注意力机制融合，使疲劳检测分类网络对不同时间不同模态的信息施加不同程度的关注；
13.利用预处理后的图像对所述疲劳检测分类网络进行训练与验证，确定疲劳检测模型；
14.利用疲劳检测模型对待检测视频进行疲劳检测分类。
15.可选地，所述对驾驶员视频数据进行预处理，具体包括：
16.将所述驾驶员视频数据以15帧/秒的帧率提帧；利用mtcnn人脸检测模型检测驾驶员的人脸；并利用dlib库函数跟踪人脸位置，周期固定为3秒；在一个时间周期后再次进行人脸检测并重新定位人脸位置；采取相邻帧补全的方法补偿丢失人脸的帧，输出每秒15帧分割的人脸图像；
17.对所述人脸图像进行数据增强；所述数据增强包括：随机调整大小裁剪、水平翻转、从-15度到15度随机旋转以及归一化；
18.对所述人脸图像进行面部标记点定位，并分割眼睛和嘴巴，确定眼部图像和嘴部图像；
19.对人脸图像进行光流图像的提取，确定头部光流图像。
20.可选地，所述在所述初始的疲劳检测模型中添加注意力层，构建疲劳检测分类网络，具体包括：
21.利用公式q
t
＝tanh(wh
t
+b)确定表示上下文信息重要程度的向量；
22.利用公式确定归一化权重；
23.利用公式确定最终状态向量；
24.其中，q
t
为表示上下文信息重要程度的向量，α
t
为归一化权重，v为最终状态向量，h
t
为每个时间步t对应的多模态特征信息，w是权重矩阵，b是偏差向量，q是可训练的参数向量，t为时间周期。
25.可选地，所述利用疲劳检测模型对待检测视频进行疲劳检测分类，具体包括：
26.将待检测视频以三秒为单位分段；
27.对分段后的视频分别进行预处理；并利用疲劳检测模型进行疲劳检测分类。
28.一种基于3d卷积网络多特征融合的疲劳检测系统，包括：
29.动作分类模型确定模块，用于利用动作识别数据集对x3d卷积神经网络进行预训练，确定动作分类模型；所述动作识别数据集包括：kinetics400数据集；
30.初始的疲劳检测模型确定模块，用于利用动作分类模型中的网络权值对所述x3d卷积神经网络进行初始化，并利用驾驶员视频数据对所述初始化后的x3d卷积神经网络进行训练，确定初始的疲劳检测模型；所述驾驶员视频数据包括：驾驶员在疲劳状态下的视频数据和驾驶员在非疲劳状态下的视频数据；
31.预处理模块，用于对驾驶员视频数据进行预处理；所述预处理包括：人脸检测及跟踪、数据增强、眼部图像及嘴部图像截取和头部光流图像提取；眼部图像以15帧/秒速度提取，一个时间周期共45帧图像；嘴部图像以及头部光流图像以5帧/秒速度提取，一个时间周期共15帧图像；
32.疲劳检测分类网络构建模块，用于在所述初始的疲劳检测模型中添加注意力层，构建疲劳检测分类网络；所述注意力层用于将初始的疲劳检测模型提取的预处理后的图像相应的多模态特征信息进行注意力机制融合，使疲劳检测分类网络对不同时间不同模态的信息施加不同程度的关注；
33.疲劳检测模型确定模块，用于利用预处理后的图像对所述疲劳检测分类网络进行训练与验证，确定疲劳检测模型；
34.疲劳检测分类模块，用于利用疲劳检测模型对待检测视频进行疲劳检测分类。
35.可选地，所述预处理模块具体包括：
36.人脸图像确定单元，用于将所述驾驶员视频数据以15帧/秒的帧率提帧；利用mtcnn人脸检测模型检测驾驶员的人脸；并利用dlib库函数跟踪人脸位置，周期固定为3秒；在一个时间周期后再次进行人脸检测并重新定位人脸位置；采取相邻帧补全的方法补偿丢失人脸的帧，输出每秒15帧分割的人脸图像；
37.数据增强单元，用于对所述人脸图像进行数据增强；所述数据增强包括：随机调整大小裁剪、水平翻转、从-15度到15度随机旋转以及归一化；
38.眼部图像和嘴部图像确定单元，用于对所述人脸图像进行面部标记点定位，并分割眼睛和嘴巴，确定眼部图像和嘴部图像；
39.头部光流图像确定单元，用于对人脸图像进行光流图像的提取，确定头部光流图像。
40.可选地，所述疲劳检测分类网络构建模块具体包括：
41.表示上下文信息重要程度的向量确定单元，用于利用公式q
t
＝tanh(wh
t
+b)确定表示上下文信息重要程度的向量；
42.归一化权重确定单元，用于利用公式确定归一化权重；
43.最终状态向量确定单元，用于利用公式确定最终状态向量；
44.其中，q
t
为表示上下文信息重要程度的向量，α
t
为归一化权重，v为最终状态向量，h
t
为每个时间步t对应的多模态特征信息，w是权重矩阵，b是偏差向量，q是可训练的参数向
量，t为时间周期。
45.可选地，所述疲劳检测分类模块具体包括：
46.待检测视频分段单元，用于将待检测视频以三秒为单位分段；
47.疲劳检测分类单元，用于对分段后的视频分别进行预处理；并利用疲劳检测模型进行疲劳检测分类。
48.根据本发明提供的具体实施例，本发明公开了以下技术效果：
49.本发明所提供的一种基于3d卷积网络多特征融合的疲劳检测方法及系统，采用3d卷积神经网络，对输入视频连续帧不同模态的信息提取特征，能有效获取视频的上下文信息，提高判别的精度。而且采用迁移学习策略，在其它大规模数据集上预训练模型并在相关数据集微调，能够使模型学习到更通用的、更强大的疲劳特征表示信息，克服了训练数据集不足的问题，也有效提高了精度。同时对于眼部、嘴部、头部光流的多模态信息，采用注意力机制融合，使模型对不同时间不同模态的信息施加不同程度的关注，在有限的复杂度内提高了判别的精度。
附图说明
50.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
51.图1为本发明所提供的一种基于3d卷积网络多特征融合的疲劳检测方法流程示意图；
52.图2为采用的3d卷积神经网络x3d模型结构图
53.图3为获取视频数据预处理流程图
54.图4为本发明提出整体神经网络结构图
55.图5为丢失帧补全策略图；
56.图6为本发明所提供的一种基于3d卷积网络多特征融合的疲劳检测系统结构示意图。
具体实施方式
57.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
58.本发明的目的是提供一种基于3d卷积网络多特征融合的疲劳检测方法及系统，能够提高疲劳检测的精度。
59.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
60.图1为本发明所提供的一种基于3d卷积网络多特征融合的疲劳检测方法流程示意图，如图1所示，本发明所提供的一种基于3d卷积网络多特征融合的疲劳检测方法，包括：
61.s101，利用动作识别数据集对x3d卷积神经网络进行预训练，确定动作分类模型；所述动作识别数据集包括：kinetics400数据集；x3d卷积神经网络如图2所示。
62.s102，利用动作分类模型中的网络权值对所述x3d卷积神经网络进行初始化，并利用驾驶员视频数据对所述初始化后的x3d卷积神经网络进行训练，确定初始的疲劳检测模型；所述驾驶员视频数据包括：驾驶员在疲劳状态下的视频数据和驾驶员在非疲劳状态下的视频数据；
63.s102采用了迁移学习策略，能将训练好的模型参数迁移到新模型，使模型学习到丰富的动作语义信息，克服了疲劳数据集较少的问题，提高检测精度。
64.s103，对驾驶员视频数据进行预处理，并如图3所示；所述预处理包括：人脸检测及跟踪、数据增强、眼部图像及嘴部图像截取和头部光流图像提取；眼部图像以15帧/秒速度提取，一个时间周期共45帧图像；嘴部图像以及头部光流图像以5帧/秒速度提取，一个时间周期共15帧图像；因为眨眼较快，所以眼部图像以15帧/秒速度提取，一个时间周期共45帧图像，打哈欠和点头动作较慢，嘴部和头部光流图像以5帧/秒速度提取，一个时间周期共15帧图像。
65.s103具体包括：
66.将所述驾驶员视频数据以15帧/秒的帧率提帧；利用mtcnn人脸检测模型检测驾驶员的人脸；并利用dlib库函数跟踪人脸位置，周期固定为3秒；在一个时间周期后再次进行人脸检测并重新定位人脸位置；
67.如图5所示，对于意外出现的遮挡、强光导致检测不到人脸的情况，采取相邻帧补全的方法补偿丢失人脸的帧，输出每秒15帧分割的人脸图像；
68.对所述人脸图像进行数据增强；所述数据增强包括：随机调整大小裁剪、水平翻转、从-15度到15度随机旋转以及归一化；
69.对所述人脸图像进行面部标记点定位，并分割眼睛和嘴巴，确定眼部图像和嘴部图像；
70.对人脸图像进行光流图像的提取，确定头部光流图像。
71.在预处理阶段，采用人脸检测加跟踪相结合的方式，避免了在每一帧图像都进行一次检测操作的额外耗时。而且本方法采用高效集成的3d卷积神经网络，采用混合精度训练，显著降低了参数量，可以在低算力设备上实时处理并输出结果，速度更快。
72.s104，在所述初始的疲劳检测模型中添加注意力层，构建疲劳检测分类网络，并如图4所示；所述注意力层用于将初始的疲劳检测模型提取的预处理后的图像相应的多模态特征信息进行注意力机制融合，使疲劳检测分类网络对不同时间不同模态的信息施加不同程度的关注；
73.疲劳检测分类网络以x3d卷积神经网络为骨干网络；x3d卷积神经网络将2d神经网络在多个维度逐步扩展到3d时空域，在能达到相同精度的前提下，参数量是其它3d神经网络的五分之一，因此选择x3d作为骨干网络来提取不同模态的时空特征信息。
74.将得到眼部图像、嘴部图像以及头部光流图像分别输入初始的疲劳检测模型，提取相应的多模态特征信息，一个时间周期的视频，转换为图像输入得到特征记为h1‑‑ht
。
75.在每个时间步t，将对应的特征h
t
输入到一个激活函数为tanh的全连接层中，得到表示上下文信息重要程度的向量q
t
，对其用softmax函数计算归一化权重α
t
，计算每个时间
步的权重并加权求和，得到一个时间周期内视频的最终状态向量v。
76.具体包括：
77.利用公式q
t
＝tanh(wh
t
+b)确定表示上下文信息重要程度的向量；
78.利用公式确定归一化权重；
79.利用公式确定最终状态向量；
80.其中，q
t
为表示上下文信息重要程度的向量，α
t
为归一化权重，v为最终状态向量，h
t
为每个时间步t对应的多模态特征信息，w是权重矩阵，b是偏差向量，q是可训练的参数向量，t为时间周期。
81.将v输入全连接层，以softmax作为激活函数，得到疲劳检测结果。
82.s105，利用预处理后的图像对所述疲劳检测分类网络进行训练与验证，确定疲劳检测模型；
83.将驾驶员视频数据m以三秒为单位切分视频，进行预处理生成训练样本和验证样本，对疲劳检测分类网络进行训练，采用标准交叉熵损失函数，带动量的随机梯度下降法进行优化。可灵活调整训练的batchsize大小和学习率，这里学习率采用逐步预热方式，在前几个epoch使用较小的学习率，然后开始每个epoch逐步增大直到达到预设的学习率，这样可以避免一开始学习率较大导致模型不稳定，同时在模型稳定后学习率再恢复到预设大小，可以加快收敛速度，效果更好。每一个epoch在验证集上计算一次精确度并保存模型，当验证集模型精度不再提高时结束训练。取在验证集上精确度最高的模型，得到疲劳检测模型。
84.s106，利用疲劳检测模型对待检测视频进行疲劳检测分类。
85.s106具体包括：
86.将待检测视频以三秒为单位分段；
87.对分段后的视频分别进行预处理；并利用疲劳检测模型进行疲劳检测分类。
88.图6为本发明所提供的一种基于3d卷积网络多特征融合的疲劳检测系统结构示意图，如图6所示，本发明所提供的一种基于3d卷积网络多特征融合的疲劳检测系统，包括：
89.动作分类模型确定模块601，用于利用动作识别数据集对x3d卷积神经网络进行预训练，确定动作分类模型；所述动作识别数据集包括：kinetics400数据集；
90.初始的疲劳检测模型确定模块602，用于利用动作分类模型中的网络权值对所述x3d卷积神经网络进行初始化，并利用驾驶员视频数据对所述初始化后的x3d卷积神经网络进行训练，确定初始的疲劳检测模型；所述驾驶员视频数据包括：驾驶员在疲劳状态下的视频数据和驾驶员在非疲劳状态下的视频数据；
91.预处理模块603，用于对驾驶员视频数据进行预处理；所述预处理包括：人脸检测及跟踪、数据增强、眼部图像及嘴部图像截取和头部光流图像提取；眼部图像以15帧/秒速度提取，一个时间周期共45帧图像；嘴部图像以及头部光流图像以5帧/秒速度提取，一个时间周期共15帧图像；
92.疲劳检测分类网络构建模块604，用于在所述初始的疲劳检测模型中添加注意力层，构建疲劳检测分类网络；所述注意力层用于将初始的疲劳检测模型提取的预处理后的图像相应的多模态特征信息进行注意力机制融合，使疲劳检测分类网络对不同时间不同模态的信息施加不同程度的关注；
93.疲劳检测模型确定模块605，用于利用预处理后的图像对所述疲劳检测分类网络进行训练与验证，确定疲劳检测模型；
94.疲劳检测分类模块606，用于利用疲劳检测模型对待检测视频进行疲劳检测分类。
95.所述预处理模块603具体包括：
96.人脸图像确定单元，用于将所述驾驶员视频数据以15帧/秒的帧率提帧；利用mtcnn人脸检测模型检测驾驶员的人脸；并利用dlib库函数跟踪人脸位置，周期固定为3秒；在一个时间周期后再次进行人脸检测并重新定位人脸位置；采取相邻帧补全的方法补偿丢失人脸的帧，输出每秒15帧分割的人脸图像；
97.数据增强单元，用于对所述人脸图像进行数据增强；所述数据增强包括：随机调整大小裁剪、水平翻转、从-15度到15度随机旋转以及归一化；
98.眼部图像和嘴部图像确定单元，用于对所述人脸图像进行面部标记点定位，并分割眼睛和嘴巴，确定眼部图像和嘴部图像；
99.头部光流图像确定单元，用于对人脸图像进行光流图像的提取，确定头部光流图像。
100.所述疲劳检测分类网络构建模块604具体包括：
101.表示上下文信息重要程度的向量确定单元，用于利用公式q
t
＝tanh(wh
t
+b)确定表示上下文信息重要程度的向量；
102.归一化权重确定单元，用于利用公式确定归一化权重；
103.最终状态向量确定单元，用于利用公式确定最终状态向量；
104.其中，q
t
为表示上下文信息重要程度的向量，α
t
为归一化权重，v为最终状态向量，h
t
为每个时间步t对应的多模态特征信息，w是权重矩阵，b是偏差向量，q是可训练的参数向量，t为时间周期。
105.所述疲劳检测分类模块606具体包括：
106.待检测视频分段单元，用于将待检测视频以三秒为单位分段；
107.疲劳检测分类单元，用于对分段后的视频分别进行预处理；并利用疲劳检测模型进行疲劳检测分类。
108.本发明采用3d卷积神经网络，将视频连续帧输入网络并提取时间、空间特征，与其他方法相比精度更高，而且经过优化的3d卷积神经网络，参数量和模型复杂度控制在有限范围内，可以实现在低算力设备上的部署。另外针对疲劳检测数据样本缺乏的问题，本发明采取迁移学习策略，将模型在其它不相关的动作识别数据集上进行预训练学习通用的动作表征信息，然后将学习到的参数在疲劳检测数据集上进行微调，可以有效防止网络过拟合，
提高模型的鲁棒性。针对模型缺乏从多模态信息中关注重要疲劳特征能力的问题，受到自然语言处理中广泛应用的注意力机制启发，本发明提出了一种基于注意力的3d卷积神经网络模型，对疲劳检测中不同模态的特征施加不同程度的关注，有效地提高了检测的精度。
109.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
110.本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

技术特征：
1.一种基于3d卷积网络多特征融合的疲劳检测方法，其特征在于，包括：利用动作识别数据集对x3d卷积神经网络进行预训练，确定动作分类模型；所述动作识别数据集包括：kinetics400数据集；利用动作分类模型中的网络权值对所述x3d卷积神经网络进行初始化，并利用驾驶员视频数据对所述初始化后的x3d卷积神经网络进行训练，确定初始的疲劳检测模型；所述驾驶员视频数据包括：驾驶员在疲劳状态下的视频数据和驾驶员在非疲劳状态下的视频数据；对驾驶员视频数据进行预处理；所述预处理包括：人脸检测及跟踪、数据增强、眼部图像及嘴部图像截取和头部光流图像提取；眼部图像以15帧/秒速度提取，一个时间周期共45帧图像；嘴部图像以及头部光流图像以5帧/秒速度提取，一个时间周期共15帧图像；在所述初始的疲劳检测模型中添加注意力层，构建疲劳检测分类网络；所述注意力层用于将初始的疲劳检测模型提取的预处理后的图像相应的多模态特征信息进行注意力机制融合，使疲劳检测分类网络对不同时间不同模态的信息施加不同程度的关注；利用预处理后的图像对所述疲劳检测分类网络进行训练与验证，确定疲劳检测模型；利用疲劳检测模型对待检测视频进行疲劳检测分类。2.根据权利要求1所述的一种基于3d卷积网络多特征融合的疲劳检测方法，其特征在于，所述对驾驶员视频数据进行预处理，具体包括：将所述驾驶员视频数据以15帧/秒的帧率提帧；利用mtcnn人脸检测模型检测驾驶员的人脸；并利用dlib库函数跟踪人脸位置，周期固定为3秒；在一个时间周期后再次进行人脸检测并重新定位人脸位置；采取相邻帧补全的方法补偿丢失人脸的帧，输出每秒15帧分割的人脸图像；对所述人脸图像进行数据增强；所述数据增强包括：随机调整大小裁剪、水平翻转、从-15度到15度随机旋转以及归一化；对所述人脸图像进行面部标记点定位，并分割眼睛和嘴巴，确定眼部图像和嘴部图像；对人脸图像进行光流图像的提取，确定头部光流图像。3.根据权利要求1所述的一种基于3d卷积网络多特征融合的疲劳检测方法，其特征在于，所述在所述初始的疲劳检测模型中添加注意力层，构建疲劳检测分类网络，具体包括：利用公式q
t
＝tanh(wh
t
+b)确定表示上下文信息重要程度的向量；利用公式确定归一化权重；利用公式确定最终状态向量；其中，q
t
为表示上下文信息重要程度的向量，α
t
为归一化权重，v为最终状态向量，h
t
为每个时间步t对应的多模态特征信息，w是权重矩阵，b是偏差向量，q是可训练的参数向量，t为时间周期。4.根据权利要求1所述的一种基于3d卷积网络多特征融合的疲劳检测方法，其特征在于，所述利用疲劳检测模型对待检测视频进行疲劳检测分类，具体包括：
将待检测视频以三秒为单位分段；对分段后的视频分别进行预处理；并利用疲劳检测模型进行疲劳检测分类。5.一种基于3d卷积网络多特征融合的疲劳检测系统，其特征在于，包括：动作分类模型确定模块，用于利用动作识别数据集对x3d卷积神经网络进行预训练，确定动作分类模型；所述动作识别数据集包括：kinetics400数据集；初始的疲劳检测模型确定模块，用于利用动作分类模型中的网络权值对所述x3d卷积神经网络进行初始化，并利用驾驶员视频数据对所述初始化后的x3d卷积神经网络进行训练，确定初始的疲劳检测模型；所述驾驶员视频数据包括：驾驶员在疲劳状态下的视频数据和驾驶员在非疲劳状态下的视频数据；预处理模块，用于对驾驶员视频数据进行预处理；所述预处理包括：人脸检测及跟踪、数据增强、眼部图像及嘴部图像截取和头部光流图像提取；眼部图像以15帧/秒速度提取，一个时间周期共45帧图像；嘴部图像以及头部光流图像以5帧/秒速度提取，一个时间周期共15帧图像；疲劳检测分类网络构建模块，用于在所述初始的疲劳检测模型中添加注意力层，构建疲劳检测分类网络；所述注意力层用于将初始的疲劳检测模型提取的预处理后的图像相应的多模态特征信息进行注意力机制融合，使疲劳检测分类网络对不同时间不同模态的信息施加不同程度的关注；疲劳检测模型确定模块，用于利用预处理后的图像对所述疲劳检测分类网络进行训练与验证，确定疲劳检测模型；疲劳检测分类模块，用于利用疲劳检测模型对待检测视频进行疲劳检测分类。6.根据权利要求5所述的一种基于3d卷积网络多特征融合的疲劳检测系统，其特征在于，所述预处理模块具体包括：人脸图像确定单元，用于将所述驾驶员视频数据以15帧/秒的帧率提帧；利用mtcnn人脸检测模型检测驾驶员的人脸；并利用dlib库函数跟踪人脸位置，周期固定为3秒；在一个时间周期后再次进行人脸检测并重新定位人脸位置；采取相邻帧补全的方法补偿丢失人脸的帧，输出每秒15帧分割的人脸图像；数据增强单元，用于对所述人脸图像进行数据增强；所述数据增强包括：随机调整大小裁剪、水平翻转、从-15度到15度随机旋转以及归一化；眼部图像和嘴部图像确定单元，用于对所述人脸图像进行面部标记点定位，并分割眼睛和嘴巴，确定眼部图像和嘴部图像；头部光流图像确定单元，用于对人脸图像进行光流图像的提取，确定头部光流图像。7.根据权利要求5所述的一种基于3d卷积网络多特征融合的疲劳检测系统，其特征在于，所述疲劳检测分类网络构建模块具体包括：表示上下文信息重要程度的向量确定单元，用于利用公式q
t
＝tanh(wh
t
+b)确定表示上下文信息重要程度的向量；归一化权重确定单元，用于利用公式确定归一化权重；
最终状态向量确定单元，用于利用公式确定最终状态向量；其中，q
t
为表示上下文信息重要程度的向量，α
t
为归一化权重，v为最终状态向量，h
t
为每个时间步t对应的多模态特征信息，w是权重矩阵，b是偏差向量，q是可训练的参数向量，t为时间周期。8.根据权利要求5所述的一种基于3d卷积网络多特征融合的疲劳检测系统，其特征在于，所述疲劳检测分类模块具体包括：待检测视频分段单元，用于将待检测视频以三秒为单位分段；疲劳检测分类单元，用于对分段后的视频分别进行预处理；并利用疲劳检测模型进行疲劳检测分类。

技术总结
本发明涉及一种基于3D卷积网络多特征融合的疲劳检测方法及系统。该方法包括利用动作识别数据集对X3D卷积神经网络进行预训练，确定动作分类模型；利用动作分类模型中的网络权值对所述X3D卷积神经网络进行初始化，并利用驾驶员视频数据对所述初始化后的X3D卷积神经网络进行训练，确定初始的疲劳检测模型；对驾驶员视频数据进行预处理；在所述初始的疲劳检测模型中添加注意力层，构建疲劳检测分类网络；利用预处理后的图像对所述疲劳检测分类网络进行训练与验证，确定疲劳检测模型；利用疲劳检测模型对待检测视频进行疲劳检测分类。本发明能够提高疲劳检测的精度。发明能够提高疲劳检测的精度。发明能够提高疲劳检测的精度。

技术研发人员：李泽超姚翔宇
受保护的技术使用者：南京理工大学
技术研发日：2021.12.07
技术公布日：2022/3/8

专利

最新回复(0)