本发明属于物联网,具体为基于图像与声音识别的校园安全防范系统。
背景技术:
1、随着社会的发展,校园危害事件屡见不鲜,给受害者带来身心伤害,也给学校和社会带来负面影响。现有的校园安防措施主要是通过人工巡查和监控摄像头,但这种方式存在识别率低、反应迟钝等问题,难以有效预防和及时制止校园危害行为。
2、现有技术中,校园安防措施依赖人工巡查和监控摄像头,但这种方法受限于人类视觉和听觉的敏感度和准确性,很难及时发现并准确判断校园危害行为,由于需要人工干预,一旦发生校园危害事件,相关部门的反应速度往往不够迅速,难以及时制止事件的发生;人工巡查存在盲区,一些私密或不易察觉的区域可能成为校园危害的高发地带。
技术实现思路
1、本发明的目的在于提供基于图像与声音识别的校园安全防范系统,以解决背景技术中提出的现有技术中,通过人工巡查和监控摄像头来巡查校园危害的方式存在识别率低、反应迟钝以及难以覆盖所有区域的问题。
2、为解决上述技术问题,本发明所采用的技术方案是:
3、基于图像与声音识别的校园安全防范系统,包括以下模块:
4、视频采集模块:用于公共区域的视频信息采集;
5、声音采集模块:用于隐私区域的声音信息采集;
6、图像识别模块:用于对视频采集模块的视频数据进行图像识别,识别校园危害行为;
7、声音识别模块:用于对声音采集模块采集的声音数据进行识别,包括识别呼救、尖叫以及特殊求救词;
8、数据处理模块:用于对图像识别模块和声音识别模块的结果进行处理,判断是否发生校园危害;
9、防范措施执行模块:根据数据处理单元的判断结果,执行相应的防范措施。
10、根据上述技术方案,图像识别模块对采集的视频数据以及声音数据进行处理;
11、视频数据处理具体为:
12、步骤s1,首先,将采集到的视频数据进行分解,将视频数据分解成单独的图像帧;
13、步骤s2,将分解得到的图像帧进行预处理;预处理具体包括:
14、步骤s201,摄像头捕获视频流;首先,使用摄像头捕获视频流;
15、步骤s202,帧提取,从视频流中提取出单个帧作为图像进行处理;
16、步骤s203,图像预处理,以提高图像识别的效果和效率;
17、步骤s3,对处理完成的图像帧,通过卷积神经网络提取特征具体为:
18、特征包括颜色、形状、纹理及更复杂的特征映射;提取的特征用于图片帧的分类、目标检测、目标识别及视频中的目标跟踪;
19、步骤s4,使用yolo识别模型对图像帧中的动作进行识别,yolo通过将整个图像分成网格并在每个网格中预测边界框和类别来实现目标检测;使用yolo进行目标检测时,将其应用于视频数据中的每一帧,并在连续帧之间进行跟踪,以实现目标的持续追踪;
20、声音数据进行处理具体为:对声音数据进行滤波、降噪以及特征提取,以减少噪音;从声音数据中提取声音特征;包括声音频率、声音傅里叶变换、梅尔频谱特征以及声音强度。
21、根据上述技术方案,步骤s203中,图像预处理具体为:
22、步骤s2031,缩放图像目标尺寸:使用yolov5模型,设定一个目标尺寸;使用双线性插值或其他插值方法对图像进行缩放,以保持图像的清晰度;
23、步骤s2032,填充图像,计算填充量;为了使缩放后的图像符合模型输入尺寸,通常在图像的短边进行填充;填充量取决于缩放后的图像尺寸和模型输入尺寸的差异;
24、步骤s2033,颜色空间转换bgr到rgb;
25、步骤s2034,归一化数值范围:将图像的像素值从0-255的整数范围转换为0-1的浮点数范围;归一化公式:img_normalized=img/255.0。
26、根据上述技术方案,步骤s3中,通过卷积神经网络提取特征具体为:
27、步骤s301,输入层将原始图像数据作为输入;这些图像数据通常被归一化到[0,1]或[-1,1]的范围;
28、步骤s302,卷积层卷积操作:使用多个可学习的卷积核(在输入图像上滑动,进行点积运算;将卷积操作的结果通过非线性激活函数进行非线性变换;
29、步骤s303,在卷积层之后,添加池化层来减少数据的空间大小,从而减少计算量和参数数量,同时保留重要特征;
30、步骤s304,多个卷积层和池化层的堆叠会堆叠多个卷积层和池化层,以提取更高级别的特征,随着层数的增加,网络能够捕获更复杂的模式和结构;
31、步骤s305,在卷积和池化层之后,添加一或多个全连接层,用于对特征进行进一步处理;
32、步骤s306,输出层,输出层用于产生最终的预测结果;
33、步骤s307,训练过程;在训练过程中,网络会通过反向传播算法(backpropagation)和梯度下降(gradient descent)优化算法来更新权重和偏置项,以最小化损失函数(loss function);
34、步骤s308,特征提取在训练完成后,使用训练好的cnn模型来提取特征。
35、根据上述技术方案,步骤s4中,使用yolo识别模型对图像帧中的动作进行识别具体为:
36、步骤s401,将输入图像分割成s×s个网格;每个网格预测b个边界框(boundingbox)以及每个边界框的置信度和类别概率;通过非极大值抑制(nms)算法去除重叠的边界框,得到最终的检测结果;
37、步骤s402,目标检测;首先,使用yolo模型对输入图像进行目标检测,得到目标的位置和类别;
38、特征提取,从检测到的目标中提取出有意义的特征,特征包括目标的形状、大小、位置、运动轨迹等;
39、动作分类,将提取出的特征输入到一个动作分类器中,进行分类训练或预测。
40、时序分析,对于视频中的动作识别,还需要考虑目标在时序上的变化,通过分析连续帧中目标的位置和特征变化来识别动作。
41、根据上述技术方案,完成对视频数据以及声音数据处理后,进行特征融合;特征融合具体为:将从图像和声音数据中提取的特征进行融合,形成一个综合的特征向量或表示,用于捕捉图像和声音之间的相关性和互补性。
42、根据上述技术方案,使用融合后的特征向量训练机器学习或深度学习模型,具体为:
43、首先,需要从图像和声音数据中分别提取特征,并将这些特征融合成一个综合的特征向量;这个过程通过拼接(concatenation)、加权平均、或者更复杂的特征融合来实现。
44、数据准备标签化:确保数据集已经被正确地标签化,即每个样本都有与之对应的类别标签或连续值;
45、数据预处理:对特征向量进行必要的预处理,如归一化、标准化或特征缩放,以确保不同的特征在数值上具有可比性;
46、划分数据集:将数据集划分为训练集、验证集和测试集;训练集用于训练模型,验证集用于调整超参数和进行早停(early stopping),测试集用于评估模型的性能;
47、训练模型设置损失函数:选择损失函数;
48、优化算法:使用随机梯度下降来更新模型的参数;
49、训练过程:使用训练数据迭代地更新模型的参数,直到模型在验证集上的性能达到最佳或满足其他停止条件。
50、评估模型使用测试集来评估模型的性能;部署模型。
51、根据上述技术方案,危害行为判断:当模型识别出事件同时出现在图像和声音数据中,那么数据处理单元判断危害行为存在,需要制止。
52、与现有技术相比,本发明具有以下有益效果:
53、在本发明中,采用了图像与声音识别技术,提高了校园危害行为的识别的准确率,实时监控校园公共区域和隐私区域,全面防范校园危害行为。通过图像与声音的识别,自动触发防范措施,迅速制止校园危害行为,降低受害者伤害,同时也能减少人工巡查和监控成本,提高校园安防工作效率。
1.基于图像与声音识别的校园安全防范系统,其特征在于:包括以下模块:
2.根据权利要求1所述的基于图像与声音识别的校园安全防范系统,其特征在于:图像识别模块对采集的视频数据以及声音数据进行处理;
3.根据权利要求2所述的基于图像与声音识别的校园安全防范系统,其特征在于:步骤s203中,图像预处理具体为:
4.根据权利要求2所述的基于图像与声音识别的校园安全防范系统,其特征在于:步骤s3中,通过卷积神经网络提取特征具体为:
5.根据权利要求2所述的基于图像与声音识别的校园安全防范系统,其特征在于:步骤s4中,使用yolo识别模型对图像帧中的动作进行识别具体为:
6.根据权利要求2所述的基于图像与声音识别的校园安全防范系统,其特征在于:完成对视频数据以及声音数据处理后,进行特征融合;特征融合具体为:将从图像和声音数据中提取的特征进行融合,形成一个综合的特征向量或表示,用于捕捉图像和声音之间的相关性和互补性。
7.根据权利要求6所述的基于图像与声音识别的校园安全防范系统,其特征在于:使用融合后的特征向量训练机器学习或深度学习模型,具体为:
8.根据权利要求7所述的基于图像与声音识别的校园安全防范系统,其特征在于:危害行为判断:当模型识别出事件同时出现在图像和声音数据中,那么数据处理单元判断危害行为存在,需要制止。
