基于多目标行人场景的行人跟踪方法、装置、设备及介质与流程

专利查询2023-9-24 135

1.本技术涉及人工智能技术领域，尤其涉及一种基于多目标行人场景的行人跟踪方法、装置、设备及介质。

背景技术：

2.多目标跟踪领域是计算机视觉的热门研究方向之一，其在自动驾驶，安防，智能视频监控等领域得到了很好的应用。多目标跟踪的主要任务是对视频中多个感兴趣的物体进行定位，维持物体的id，并记录他们的轨迹。
3.目前多目标跟踪比较常用的实现方法是基于track by detection的方法，即首先使用目标检测方法将视频每帧中感兴趣的物体检测出来，接着使用某种方式将本帧检测结果和上一帧结果检测目标关联起来，得到物体的运动轨迹。deep sort正是这种跟踪方法中常用的一种，然而deep sort使用卡尔曼滤波预测时使用的是恒速模型，当视频中存在不规则运动行人，或突然加速减速时，预测框容易偏离实际目标，当行人比较密集时，容易产生身份标识转换(id switch)现象，同时由于单个摄像头的视野是有限的，当目标消失在视频边缘后一段时间再出现时，该方法会判定出现了新的目标并赋予新的行人，从而使得在多个目标行人场景下的行人跟踪准确度较低。

技术实现要素：

4.本技术实施例的目的在于提出一种基于多目标行人场景的行人跟踪方法、装置、设备及介质，以提高多个目标行人场景下的行人跟踪准确度。
5.为了解决上述技术问题，本技术实施例提供一种基于多目标行人场景的行人跟踪方法，包括：
6.获取多个摄像头拍摄的视频，并逐帧提取多个所述视频中的图像，得到每个所述视频对应的图像，以及按照时间信息，将多个所述视频对应的图像进行逐帧拼接，得到目标图像；
7.通过预先训练的检测模型对所述目标图像进行行人检测，得到行人检测框；
8.根据预设算法对所述行人检测框进行跟踪，并采用预设的预测方式，预测所述行人检测框中上一帧行人在当前帧的位置，得到行人预测框；
9.将所述行人检测框与所述行人预测框进行多特征融合的匹配，得到目标匹配结果，其中，所述多特征融合的匹配包括级联匹配、方向梯度直方图hog匹配以及重叠度iou匹配；
10.基于所述目标匹配结果，更新行人预测框对应的跟踪器，得到行人跟踪结果。
11.为了解决上述技术问题，本技术实施例提供一种基于多目标行人场景的行人跟踪装置，包括：
12.目标图像拼接模块，用于获取多个摄像头拍摄的视频，并逐帧提取多个所述视频中的图像，得到每个所述视频对应的图像，以及按照时间信息，将多个所述视频对应的图像
进行逐帧拼接，得到目标图像；
13.行人检测框生成模块，用于通过预先训练的检测模型对所述目标图像进行行人检测，得到行人检测框；
14.行人预测框生成模块，用于根据预设算法对所述行人检测框进行跟踪，并采用预设的预测方式，预测所述行人检测框中上一帧行人在当前帧的位置，得到行人预测框；
15.匹配结果获取模块，用于将所述行人检测框与所述行人预测框进行多特征融合的匹配，得到目标匹配结果，其中，所述多特征融合的匹配包括级联匹配、方向梯度直方图hog匹配以及重叠度iou匹配；
16.跟踪结果生成模块，用于基于所述目标匹配结果，更新行人预测框对应的跟踪器，得到行人跟踪结果。
17.为解决上述技术问题，本发明采用的一个技术方案是：提供一种计算机设备，包括，一个或多个处理器；存储器，用于存储一个或多个程序，使得一个或多个处理器实现上述任意一项所述的基于多目标行人场景的行人跟踪方法。
18.为解决上述技术问题，本发明采用的一个技术方案是：一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的基于多目标行人场景的行人跟踪方法。
19.本发明实施例提供了一种基于多目标行人场景的行人跟踪方法、装置、设备及介质。本发明实施例获取多个摄像头拍摄的视频，并逐帧提取多个视频中的图像，得到每个视频对应的图像，以及按照时间信息，将多个视频对应的图像进行逐帧拼接，得到目标图像；通过预先训练的检测模型对目标图像进行行人检测，得到行人检测框；根据预设算法对行人检测框进行跟踪，并采用预设的预测方式，预测行人检测框中上一帧行人在当前帧的位置，得到行人预测框；将行人检测框与行人预测框进行多特征融合的匹配，得到目标匹配结果，基于目标匹配结果，更新行人预测框对应的跟踪器，得到行人跟踪结果，实现通过对多摄像头拍摄的视频进行图像提取和图像拼接，提高了多视野下识别的鲁棒性，同时通过带有加速度分量的卡尔曼滤波进行预测，提高了对不规则运动行人的跟踪准确度，将行人检测框与行人预测框进行不同特征的匹配，提高了匹配精度，从而提高多目标场景的行人跟踪准确度。
附图说明
20.为了更清楚地说明本技术中的方案，下面将对本技术实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1根据本技术实施例提供的基于多目标行人场景的行人跟踪方法的一实现流程图；
22.图2是本技术实施例提供的基于多目标行人场景的行人跟踪方法中子流程的一实现流程图；
23.图3是本技术实施例提供的基于多目标行人场景的行人跟踪方法中子流程的又一实现流程图；
24.图4是本技术实施例提供的基于多目标行人场景的行人跟踪方法中子流程的又一
实现流程图；
25.图5是本技术实施例提供的基于多目标行人场景的行人跟踪方法中子流程的又一实现流程图；
26.图6是本技术实施例提供的基于多目标行人场景的行人跟踪方法中子流程的又一实现流程图；
27.图7是本技术实施例提供的基于多目标行人场景的行人跟踪装置示意图；
28.图8是本技术实施例提供的计算机设备的示意图。
具体实施方式
29.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本技术；本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。
30.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
31.为了使本技术领域的人员更好地理解本技术方案，下面将结合附图，对本技术实施例中的技术方案进行清楚、完整地描述。
32.下面结合附图和实施方式对本发明进行详细说明。
33.需要说明的是，本技术实施例所提供的基于多目标行人场景的行人跟踪方法一般由服务器执行，相应地，基于多目标行人场景的行人跟踪装置一般配置于服务器中。
34.请参阅图1，图1示出了基于多目标行人场景的行人跟踪方法的一种具体实施方式。
35.需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限，该方法包括如下步骤：
36.s1：获取多个摄像头拍摄的视频，并逐帧提取多个视频中的图像，得到每个视频对应的图像，以及按照时间信息，将多个视频对应的图像进行逐帧拼接，得到目标图像。
37.具体的，获取多个摄像头对行人场景下的拍摄视频，并逐帧提取每个视频图像，将在同一时刻的视频图像进行拼接，得到目标图像。
38.请参阅图2，图2示出了步骤s1的一种具体实施方式，详叙如下：
39.s11：获取多个摄像头拍摄的视频，并按照逐帧提取的方式，提取多个视频在相同时刻的图像，得到每个视频对应的图像，并采用orb特征提取算法提取图像的图像特征点。
40.s12：统计图像特征点的汉明距离，并基于预设的汉明距离，通过模式匹配器将图像特征点进行匹配，得到粗匹配结果，其中，粗匹配结果中包括图像匹配点对。
41.s13：在粗匹配结果中，采用渐进一致采样的方式，对图像匹配点对进行提纯处理，得到提纯后的图像匹配点对作为目标图像匹配点对，并基于提纯后的图像匹配点对，将图
像进行融合，得到目标图像。
42.具体的，通过orb特征提取算法逐帧提取图像的图像特征点，其中，orb是oriented fast and rotated brief的简称，可以用来对图像中的关键点快速创建特征向量，这些特征向量可以用来识别图像中的对象。其中，fast算法和brief算法分别是特征检测算法和向量创建算法。orb特征提取算法首先会从图像中查找特殊区域，称为关键点；关键点即图像中突出的小区域，比如角点，比如它们具有像素值急剧的从浅色变为深色的特征。然后orb特征提取算法会为每个关键点计算相应的特征向量；orb特征提取算法创建的特征向量只包含1和0，称为二元特征向量；1和0的顺序会根据特定关键点和其周围的像素区域而变化。该特征向量表示关键点周围的强度模式，因此多个特征向量可以用来识别更大的区域，甚至图像中的特定对象。上述特征向量为本实施例中的图像特征点。
43.进一步的，由于现有的方法是使用多个摄像头进行拍摄，通过图像拼接的方法将多个摄像头拍摄的视频逐帧拼接，在拼接的图像上使用deep sort算法。然而随着监控技术的发展，监控视频的分辨率逐渐提高，传统的图像拼接算法运算量大、处理速度慢、效率低，无法满足高分辨率图像的快速准确拼接，导致行人跟踪速度慢，效率低。而在本技术实施中，通过使用基于orb特征的图像拼接算法，解决了传统拼接算法在处理高分辨率图像拼接时计算量大，时效低的问题，从而提高在处理高分辨率图像的拼接效率，进而提高行人跟踪速度和行人跟踪处理效率。
44.具体的，对于多个摄像头采集的视频，逐帧提取相同时刻的图像，使用orb特征提取算法提取图像特征点，再统计图像中的图像特征点的汉明距离，基于汉明距离将各个图像进行粗匹配，在预设的汉明距离内，使用模式匹配器，从而得到粗匹配结果。然后在粗匹配结果中，将图像匹配点对进行提纯处理，得到提纯后的图像匹配点对，并基于提纯后的图像匹配点对，将图像进行融合，得到目标图像。
45.本实施例中，通过获取多个摄像头拍摄的视频，并按照逐帧提取的方式，提取多个视频在相同时刻的图像，得到每个视频对应的图像，并采用orb特征提取算法提取所述图像的图像特征点，并统计图像特征点的汉明距离，基于预设的汉明距离，通过模式匹配器将所述图像特征点进行匹配，得到粗匹配结果，在粗匹配结果中，将图像匹配点对进行提纯处理，得到提纯后的图像匹配点对，并基于提纯后的图像匹配点对，将图像进行融合，得到目标图像，使用多摄像头拍摄行人视频，解决单个摄像头视野小的问题，并使用基于orb特征提取算法的图像拼接算法，解决传统图像拼接算法速度慢效率低的问题。
46.请参阅图3，图3示出了步骤s13的一种具体实施方式，详叙如下：
47.s131：在粗匹配结果中，采用渐进一致采样的方式，对图像匹配点对进行提纯处理，得到提纯后的图像匹配点对，并将提纯后的图像匹配点对作为目标图像匹配点对。
48.s132：通过求解矩阵变换的方式，将目标图像匹配点对进行逐帧拼接，以使得图像进行融合，得到目标图像。
49.具体的，渐进一致采样的方式是指prosac算法，该prosac(progressive sampling consensus)采用半随机方法，对所有点对进行质量评价计算q值，然后根据q值降序排列，每次只在高质量点对中经验模型假设与验证，这样就大大降低了计算量。在实施例中，通过采用渐进一致采样的方式，对处理粗匹配结果中的图像匹配点对进行提纯处理，得到目标图像匹配点对。然后通过求解矩阵变换的方式，将目标图像匹配点对进行逐帧拼接，以使得图
像进行融合，得到目标图像。本实施例实现了高分辨率的图像进行快速准确的拼接融合，有效提高图像拼接效率。
50.s2：通过预先训练的检测模型对目标图像进行行人检测，得到行人检测框。
51.具体的，检测模型为yolo(you only look once)系列模型，优选yolov5x模型，该yolov5x模型具备检测速度快，检测精度高的特点，本实施例用该模型用于对图像中行人进行检测，形成检测框。
52.请参阅图4，图4示出了步骤s2之前的一种具体实施方式，详叙如下：
53.s21：获取coco图像数据集，并通过coco图像数据集对检测模型进行预训练，得到预训练后的检测模型。
54.s22：获取行人检测数据集，并将行人检测数据集转换为coco图像数据集对应格式，得到初始训练数据。
55.s23：对初始训练数据进行预处理，得到目标训练数据。
56.s24：通过目标训练数据对预训练后的检测模型进行训练，得到预先训练的检测模型。
57.具体的，使用yolov5x模型在coco图像数据集上进行预训练；接着收集行人检测数据集，该行人检测数据集包含行人检测的公共可用数据集，并将行人检测数据集转换成coco数据集格式；再对收集的行人检测数据集进行预处理，清理掉与实际用例视角相差过大的数据，并进行数据增幅。使用coco图像数据集预训练的权重在处理后的数据集上训练，得到用于行人检测的yolov5x检测器，也即得到预先训练的检测模型。进一步的，在步骤s1前，通过将deep sort原有的cnn特征提取网络在kitti数据集上进行再次训练，得到用于行人特征提取的cnn特征提取器。其中，coco图像数据集是common objects in context，是微软团队提供的一个可以用来进行图像识别的数据集。kitti数据集是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集，kitti数据集用于评测立体图像，3d物体检测(object detection)和3d跟踪(tracking)等计算机视觉技术在车载环境下的性能。
58.本实施例中，通过使用yolov5x模型在coco图像数据集进行预训练，再在收集并处理好的行人检测数据集上再训练的方法，使训练好的检测器可以很好地适用于行人检测，有利于提高多目标场景的行人跟踪准确度。
59.s3：根据预设算法对行人检测框进行跟踪，并采用预设的预测方式，预测行人检测框中上一帧行人在当前帧的位置，得到行人预测框。
60.具体的，预设算法为deep sort算法，deep sort算法是多目标跟踪算法，基本思想是tracking-by-detection，利用运动模型和外观信息进行数据关联，运行速率主要由检测算法所决定；该算法对每一帧进行目标检测，后续通过带权值的匈牙利匹配算法对之前的运动轨迹和当前检测对象进行匹配，形成物体的运动轨迹。预设的预测方式可以为带加速度分量的卡尔曼滤波的方式。本实施例中，使用deep sort算法根据行人检测的检测框进行行人跟踪，在跟踪器预测阶段，使用带有加速度分量的卡尔曼滤波预测上一帧行人在当前帧的位置。
61.其中，卡尔曼滤波(kalman filtering)是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。而采用带加速度分量的卡尔曼滤波的方式，可以避免当视频中存在不规则运动行人，或突然加速减速时，预测框容易偏离实际
目标，当行人比较密集时，避免产生身份标识转换现象。
62.s4：将行人检测框与行人预测框进行多特征融合的匹配，得到目标匹配结果。
63.具体的，多特征融合的匹配包括级联匹配、方向梯度直方图hog匹配以及重叠度iou匹配。
64.请参阅图5，图5示出了步骤s4的一种具体实施方式，详叙如下：
65.s41：将行人检测框与行人预测框进行级联匹配，得到级联匹配结果。
66.s42：将级联匹配中未成功匹配的行人检测框与行人预测框进行方向梯度直方图hog匹配，得到方向梯度直方图hog匹配结果。
67.s43：将方向梯度直方图hog匹配结果中未成功匹配的行人检测框与行人预测框进行重叠度iou匹配，得到重叠度iou匹配结果。
68.s44：将级联匹配结果、方向梯度直方图hog匹配结果以及重叠度iou匹配结果作为目标匹配结果。
69.具体的，本实施例中先进行级联匹配，对行人预测框和行人检测框进行匹配。在上一帧中，未匹配成功的行人预测框不会立即删除，而会给一个递增的标号1，上上帧未匹配成功的行人预测框标号则为2，在进行级联匹配时，先让当前帧的行人预测框和行人检测框进行匹配，接着让标号为1的也就是上一帧匹配失败的行人预测框进行匹配，以此循环。在级联匹配结束后，进行方向梯度直方图hog匹配。对当前帧中匹配不成功的行人预测框和行人检测框进行再次匹配。方向梯度直方图hog匹配结束后，最后使用重叠度iou进行匹配，对当前帧中剩下的未匹配的行人预测框和行人检测框进行匹配。在一具体实施例中，先使用马氏距离和基于cnn特征提取网络的最小余弦距离进行行人检测框与行人跟踪框的级联匹配。本实施例将行人检测框与行人预测框进行多特征的匹配，提高了匹配精度，从而提高多目标场景的行人跟踪准确度。
70.在步骤s4之后，还包括：
71.若检测到行人检测框中未存在对应的行人预测框进行匹配，则判定行人预测框对应的行人为新的行人，并对新的行人进行标注。
72.具体的，若检测到行人检测框中未存在对应的行人预测框，说明跟踪器还未对该行人预测框中的行人进行跟踪预测，则判定行人预测框对应的行人为新的行人，并对新的行人进行标注，赋予该新的行人新的身份标识id。
73.s5：基于目标匹配结果，更新行人预测框对应的跟踪器，得到行人跟踪结果。
74.请参阅图6，图6示出了步骤s5的一种具体实施方式，详叙如下：
75.s51：获取目标匹配结果中成功匹配的行人检测框与行人预测框，并将行人检测框替换行人预测框，以及更新行人预测框对应的滤波器。
76.具体的，在整个匹配流程结束后，对于匹配成功的行人预测框和行人检测框，用行人检测框替换行人预测框，并更新行人预测框的滤波器。对于匹配失败的行人预测框，增加其对应标号，若标号超过设定的阈值，则删除。对于没有对应预测框匹配的行人检测框，则认为出现新的行人，初始化滤波器。
77.本实施例中，获取多个摄像头拍摄的视频，并提取多个视频中的图像，得到每个视频对应的图像，以及按照时间信息，将多个视频对应的图像进行拼接，得到目标图像；通过预先训练的检测模型对目标图像进行行人检测，得到行人检测框；根据预设算法对行人检
测框进行跟踪，并采用预设的预测方式，预测行人检测框中上一帧行人在当前帧的位置，得到行人预测框；将行人检测框与行人预测框进行多特征融合的匹配，得到目标匹配结果，基于目标匹配结果，更新行人预测框对应的跟踪器，得到行人跟踪结果，实现通过对多摄像头拍摄的视频进行图像提取和图像拼接，提高了多视野下识别的鲁棒性，同时通过带有加速度分量的卡尔曼滤波进行预测，提高了对不规则运动行人的跟踪准确度，并且将行人检测框与行人预测框进行不同特征的匹配，提高了匹配精度，从而提高多目标场景的行人跟踪准确度。
78.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)等非易失性存储介质，或随机存储记忆体(random access memory，ram)等。
79.请参考图7，作为对上述图1所示方法的实现，本技术提供了一种基于多目标行人场景的行人跟踪装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
80.如图7所示，本实施例的基于多目标行人场景的行人跟踪装置包括：目标图像拼接模块61、行人检测框生成模块62、行人预测框生成模块63、匹配结果获取模块64及跟踪结果生成模块65，其中：
81.目标图像拼接模块61，用于获取多个摄像头拍摄的视频，并逐帧提取多个视频中的图像，得到每个视频对应的图像，以及按照时间信息，将多个视频对应的图像进行逐帧拼接，得到目标图像；
82.行人检测框生成模块62，用于通过预先训练的检测模型对目标图像进行行人检测，得到行人检测框；
83.行人预测框生成模块63，用于根据预设算法对行人检测框进行跟踪，并采用预设的预测方式，预测行人检测框中上一帧行人在当前帧的位置，得到行人预测框；
84.匹配结果获取模块64，用于将行人检测框与行人预测框进行多特征融合的匹配，得到目标匹配结果，其中，多特征融合的匹配包括级联匹配、方向梯度直方图hog匹配以及重叠度iou匹配；
85.跟踪结果生成模块65，用于基于目标匹配结果，更新行人预测框对应的跟踪器，得到行人跟踪结果。
86.进一步的，目标图像拼接模块61包括：
87.图像提取单元，用于获取多个摄像头拍摄的视频，并按照逐帧提取的方式，提取多个视频在相同时刻的图像，得到每个视频对应的图像，并采用orb特征提取算法提取图像的图像特征点；
88.粗匹配单元，用于统计图像特征点的汉明距离，并基于预设的汉明距离，通过模式匹配器将图像特征点进行匹配，得到粗匹配结果，其中，粗匹配结果中包括图像匹配点对；
89.图像融合单元，用于在粗匹配结果中，采用渐进一致采样的方式，对图像匹配点对进行提纯处理，得到提纯后的图像匹配点对作为目标图像匹配点对，并基于提纯后的图像匹配点对，将图像进行融合，得到目标图像。
90.进一步的，图像融合单元，包括：
91.图像特征点采集子单元，用于在粗匹配结果中，采用渐进一致采样的方式，对图像匹配点对进行提纯处理，得到提纯后的图像匹配点对，并将提纯后的图像匹配点对作为目标图像匹配点对；
92.矩阵变换求解子单元，用于通过求解矩阵变换的方式，将目标图像匹配点对进行逐帧拼接，以使得图像进行融合，得到目标图像。
93.进一步的，行人检测框生成模块62之前，还包括：
94.模型预训练模块，用于获取coco图像数据集，并通过coco图像数据集对检测模型进行预训练，得到预训练后的检测模型；
95.初始训练数据获取模块，用于获取行人检测数据集，并将行人检测数据集转换为coco图像数据集对应格式，得到初始训练数据；
96.目标训练数据获取模块，用于对初始训练数据进行预处理，得到目标训练数据；
97.模型训练完成模块，用于通过目标训练数据对预训练后的检测模型进行训练，得到预先训练的检测模型。
98.进一步的，匹配结果获取模块64包括：
99.第一匹配结果生成单元，用于将行人检测框与行人预测框进行级联匹配，得到级联匹配结果；
100.第二匹配结果生成单元，用于将行人检测框与行人预测框进行级联匹配，得到级联匹配结果；
101.第三匹配结果生成单元，将方向梯度直方图hog匹配结果中未成功匹配的行人检测框与行人预测框进行重叠度iou匹配，得到重叠度iou匹配结果。
102.进一步的，匹配结果获取模块64之后，还包括：
103.新的行人标注模块，用于若检测到行人检测框中未存在对应的行人预测框进行匹配，则判定行人预测框对应的行人为新的行人，并对新的行人进行标注。
104.进一步的，跟踪结果生成模块65包括：
105.匹配成功单元，用于获取目标匹配结果中成功匹配的行人检测框与行人预测框，并将行人检测框替换行人预测框，以及更新行人预测框对应的滤波器；
106.匹配失败单元，用于获取重叠度iou匹配结果中未成功匹配的行人检测框与行人预测框，并将未成功匹配的行人检测框进行删除。
107.为解决上述技术问题，本技术实施例还提供计算机设备。具体请参阅图8，图8为本实施例计算机设备基本结构框图。
108.计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73。需要指出的是，图中仅示出了具有三种组件存储器71、处理器72、网络接口73的计算机设备7，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit，asic)、可编程门阵列(field－programmable gate array，fpga)、数字处理器(digital signal processor，dsp)、嵌入式设备等。
109.计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
110.存储器71至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器71可以是计算机设备7的内部存储单元，例如该计算机设备7的硬盘或内存。在另一些实施例中，存储器71也可以是计算机设备7的外部存储设备，例如该计算机设备7上配备的插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。当然，存储器71还可以既包括计算机设备7的内部存储单元也包括其外部存储设备。本实施例中，存储器71通常用于存储安装于计算机设备7的操作系统和各类应用软件，例如基于多目标行人场景的行人跟踪方法的程序代码等。此外，存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。
111.处理器72在一些实施例中可以是中央处理器(central processing unit，cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制计算机设备7的总体操作。本实施例中，处理器72用于运行存储器71中存储的程序代码或者处理数据，例如运行上述基于多目标行人场景的行人跟踪方法的程序代码，以实现基于多目标行人场景的行人跟踪方法的各种实施例。
112.网络接口73可包括无线网络接口或有线网络接口，该网络接口73通常用于在计算机设备7与其他电子设备之间建立通信连接。
113.本技术还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序可被至少一个处理器执行，以使至少一个处理器执行如上述的一种基于多目标行人场景的行人跟踪方法的步骤。
114.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例的方法。
115.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
116.显然，以上所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例，附图中给出了本技术的较佳实施例，但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进
行等效替换。凡是利用本技术说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本技术专利保护范围之内。

技术特征：
1.一种基于多目标行人场景的行人跟踪方法，其特征在于，包括：获取多个摄像头拍摄的视频，并逐帧提取多个所述视频中的图像，得到每个所述视频对应的图像，以及按照时间信息，将多个所述视频对应的图像进行逐帧拼接，得到目标图像；通过预先训练的检测模型对所述目标图像进行行人检测，得到行人检测框；根据预设算法对所述行人检测框进行跟踪，并采用预设的预测方式，预测所述行人检测框中上一帧行人在当前帧的位置，得到行人预测框；将所述行人检测框与所述行人预测框进行多特征融合的匹配，得到目标匹配结果，其中，所述多特征融合的匹配包括级联匹配、方向梯度直方图hog匹配以及重叠度iou匹配；基于所述目标匹配结果，更新行人预测框对应的跟踪器，得到行人跟踪结果。2.根据权利要求1所述的基于多目标行人场景的行人跟踪方法，其特征在于，所述获取多个摄像头拍摄的视频，并逐帧提取多个所述视频中的图像，得到每个所述视频对应的图像，以及按照时间信息，将多个所述视频对应的图像进行逐帧拼接，得到目标图像，包括：获取多个所述摄像头拍摄的视频，并按照逐帧提取的方式，提取多个所述视频在相同时刻的图像，得到每个所述视频对应的图像，并采用orb特征提取算法提取所述图像的图像特征点；统计所述图像特征点的汉明距离，并基于预设的汉明距离，通过模式匹配器将所述图像特征点进行匹配，得到粗匹配结果，其中，所述粗匹配结果中包括图像匹配点对；在所述粗匹配结果中，将所述图像匹配点对进行提纯处理，得到提纯后的图像匹配点对，并基于所述提纯后的图像匹配点对，将所述图像进行融合，得到所述目标图像。3.根据权利要求2所述的基于多目标行人场景的行人跟踪方法，其特征在于，所述在所述粗匹配结果中，将所述图像匹配点对进行提纯处理，得到提纯后的图像匹配点对，并基于所述提纯后的图像匹配点对，将所述图像进行融合，得到所述目标图像，包括：在所述粗匹配结果中，采用渐进一致采样的方式，对所述图像匹配点对进行提纯处理，得到提纯后的图像匹配点对，并将所述提纯后的图像匹配点对作为目标图像匹配点对；通过求解矩阵变换的方式，将所述目标图像匹配点对进行逐帧拼接，以使得所述图像进行融合，得到所述目标图像。4.根据权利要求1所述的基于多目标行人场景的行人跟踪方法，其特征在于，所述通过预先训练的检测模型对所述目标图像进行行人检测，得到行人检测框之前，所述方法还包括：获取coco图像数据集，并通过所述coco图像数据集对检测模型进行预训练，得到预训练后的检测模型；获取行人检测数据集，并将所述行人检测数据集转换为所述coco图像数据集对应格式，得到初始训练数据；对所述初始训练数据进行预处理，得到目标训练数据；通过所述目标训练数据对所述预训练后的检测模型进行训练，得到所述预先训练的检测模型。5.根据权利要求1所述的基于多目标行人场景的行人跟踪方法，其特征在于，所述将所述行人检测框与所述行人预测框进行多特征融合的匹配，得到目标匹配结果，包括：
将所述行人检测框与所述行人预测框进行所述级联匹配，得到级联匹配结果；将所述级联匹配中未成功匹配的行人检测框与行人预测框进行所述方向梯度直方图hog匹配，得到方向梯度直方图hog匹配结果；将所述方向梯度直方图hog匹配结果中未成功匹配的行人检测框与行人预测框进行所述重叠度iou匹配，得到重叠度iou匹配结果；将所述级联匹配结果、所述方向梯度直方图hog匹配结果以及所述重叠度iou匹配结果作为所述目标匹配结果。6.根据权利要求5所述的基于多目标行人场景的行人跟踪方法，其特征在于，所述基于所述目标匹配结果，更新行人预测框对应的跟踪器，得到行人跟踪结果，包括：获取所述目标匹配结果中成功匹配的行人检测框与行人预测框，并将所述行人检测框替换所述行人预测框，以及更新所述行人预测框对应的滤波器。7.根据权利要求1至6任一项所述的基于多目标行人场景的行人跟踪方法，其特征在于，所述将所述行人检测框与所述行人预测框进行多特征融合的匹配，得到目标匹配结果之后，所述方法还包括：若检测到所述行人检测框中未存在对应的所述行人预测框进行匹配，则判定所述行人预测框对应的行人为新的行人，并对所述新的行人进行标注。8.一种基于多目标行人场景的行人跟踪装置，其特征在于，包括：目标图像拼接模块，用于获取多个摄像头拍摄的视频，并逐帧提取多个所述视频中的图像，得到每个所述视频对应的图像，以及按照时间信息，将多个所述视频对应的图像进行逐帧拼接，得到目标图像；行人检测框生成模块，用于通过预先训练的检测模型对所述目标图像进行行人检测，得到行人检测框；行人预测框生成模块，用于根据预设算法对所述行人检测框进行跟踪，并采用预设的预测方式，预测所述行人检测框中上一帧行人在当前帧的位置，得到行人预测框；匹配结果获取模块，用于将所述行人检测框与所述行人预测框进行多特征融合的匹配，得到目标匹配结果，其中，所述多特征融合的匹配包括级联匹配、方向梯度直方图hog匹配以及重叠度iou匹配；跟踪结果生成模块，用于基于所述目标匹配结果，更新行人预测框对应的跟踪器，得到行人跟踪结果。9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于多目标行人场景的行人跟踪方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于多目标行人场景的行人跟踪方法。

技术总结
本申请涉及人工智能技术领域，揭露一种基于多目标行人场景的行人跟踪方法、装置、设备及介质，其中方法包括获取多个摄像头拍摄的视频，并逐帧提取多个视频中的图像，以及将图像进行拼接，得到目标图像；通过预先训练的检测模型对目标图像进行行人检测，得到行人检测框；根据预设算法对行人检测框进行跟踪，并采用预设的预测方式，预测行人检测框中上一帧行人在当前帧的位置，得到行人预测框；将行人检测框与行人预测框进行多特征融合的匹配，得到目标匹配结果，并基于目标匹配结果，更新行人预测框对应的跟踪器，得到行人跟踪结果。本申请将行人检测框与行人预测框进多特征的匹配，提高了匹配精度，从而提高多目标场景的行人跟踪准确度。踪准确度。踪准确度。

技术研发人员：曹阳杨
受保护的技术使用者：天翼物联科技有限公司
技术研发日：2021.12.15
技术公布日：2022/3/8

专利

最新回复(0)