场景图生成方法和装置与流程

专利查询2023-2-9 174

1.本公开涉及信息处理领域，特别涉及一种场景图生成方法和装置。

背景技术：

2.场景图是图像中所包含信息的结构化表征，不仅可以表示图像中所有的物体，并且还能表达不同物体之间存在的关系。因此，场景图生成有助于视觉理解和可解释性推理，并广泛应用于图像描述、视觉问答、和3d场景合成等任务中，且有助于根据实际场景中用户行为，分析用户画像。例如可通过视频监控对行人行为进行分析和预警。
3.现有的场景图生成方法主要包括基于循环神经网络的场景图生成方法和基于图神经网络的场景图生成方法。

技术实现要素：

4.发明人注意到，现有的场景图生成方法仅假设物体与物体、关系与关系之间存在同质性联系。即只考虑同一类的物体或同一类的关系之间的依赖性。然而，场景图中的物体与物体，关系与关系之间往往不属于同一类，即具有较高的异质性。然而，现有技术中以下三个问题：
5.1)如何同时考虑物体与物体，关系与关系之间中的异质性；然而，现有的场景图生成方法都没有显式的刻画物体与物体之间的异质性。此外，现有的神经网络模型也忽略了关系与关系之间的异质性。
6.2)现实应用中，同一个场景中的物体之间容易发生了较大的遮挡，尤其是两个不同类的物体之间的遮挡将导致图神经网络难以区分同质性与异构性。最终影响物体、关系的识别。例如，与图1所示的场景图如图2所示。然而，如图1所示，女士(目标1)和冰箱(目标2)发生了大面积的遮挡，则现有的场景图生成模型无法正确识别这两个物体以及这对物体相关的关系，在这种情况下就会出现目标1和目标2无法区分开的问题。
7.3)n个物体将涉及到n(n-1)个潜在的关系。因此，考虑所有潜在关系之间的联系将带来较高的运算复杂度。此外，并非所有物体对之间都存在有意义的关系。场景图中存在一些多余的关系，且可能会降低场景图生成的性能。
8.据此，本公开提供一种场景图生成方法，能够有效识别复杂场景下物体和关系之间的异质性和同质性，从而生成具有鲁棒性的场景图。
9.根据本公开实施例的第一方面，提供一种场景图生成方法，包括：对输入图像进行识别，以识别出所述输入图像中的全部目标；生成关系集合，其中所述关系集合中包括所述全部目标中的任意两个目标之间的关系；在所述关系集合中，选择出与第一关系r_ij相关联的第二关系r_dk，其中所述第一关系r_ij为从第i个目标到第j个目标的关系，所述第二关系r_dk为从第d个目标到第k个目标的关系，1≤i,j,d,k≤n，n为目标总数，i≠j，d≠k，且所述第一关系r_ij和所述第二关系r_dk涉及一个相同的目标；将所述第一关系r_ij和所述第二关系r_dk涉及的不同目标之间的关系的关系值，对所述第一关系r_ij的关系值进行更
新；利用所述全部目标和更新后的关系值生成场景图。
10.在一些实施例中，在所述第i个目标和所述第d个目标相同，第j个目标和所述第k个目标不同的情况下，对所述第一关系r_ij的关系值进行更新包括：根据从第j个目标到第k个目标的第三关系r_jk的关系值，更新所述第一关系r_ij的关系值。
11.在一些实施例中，根据所述第三关系r_jk的关系值更新所述第一关系r_ij的关系值包括：判断所述第j个目标和所述第k个目标之间的重叠比例是否小于预设门限；若所述第j个目标和所述第k个目标之间的重叠比例小于预设门限，则将所述第三关系r_jk的关系值乘以第一权值，以得到第一反馈值，其中所述第一权值为正数；利用所述第一反馈值更新所述第一关系r_ij的关系值。
12.在一些实施例中，若所述第j个目标和所述第k个目标之间的重叠比例不小于预设门限，则将所述第三关系r_jk的关系值乘以第二权值，以得到第二反馈值，其中所述第二权值为负数；利用所述第二反馈值更新所述第一关系r_ij的关系值。
13.在一些实施例中，在所述第i个目标和所述第d个目标不同，第j个目标和所述第k个目标相同的情况下，对所述第一关系r_ij的关系值进行更新包括：根据从第i个目标到第d个目标的第四关系r_id的关系值，更新所述第一关系r_ij的关系值。
14.在一些实施例中，根据所述第四关系r_id的关系值更新所述第一关系r_ij的关系值包括：判断所述第i个目标和所述第d个目标之间的重叠比例是否小于预设门限；若所述第i个目标和所述第d个目标之间的重叠比例小于预设门限，则将所述第四关系r_id的关系值乘以第三权值，以得到第三反馈值，其中所述第三权值为正数；利用所述第三反馈值更新所述第一关系r_ij的关系值。
15.在一些实施例中，若所述第i个目标和所述第d个目标之间的重叠比例不小于预设门限，则将第四关系r_id的关系值乘以第四权值，以得到第四反馈值，其中所述第四权值为负数；利用所述第四反馈值更新所述第一关系r_ij的关系值。
16.根据本公开实施例的第二方面，提供一种场景图生成装置，包括：第一处理模块，被配置为对输入图像进行识别，以识别出所述输入图像中的全部目标；第二处理模块，被配置为生成关系集合，其中所述关系集合中包括所述全部目标中的任意两个目标之间的关系；第三处理模块，被配置为在所述关系集合中，选择出与第一关系r_ij相关联的第二关系r_dk，其中所述第一关系r_ij为从第i个目标到第j个目标的关系，所述第二关系r_dk为从第d个目标到第k个目标的关系，1≤i,j,d,k≤n，n为目标总数，i≠j，d≠k，且所述第一关系r_ij和所述第二关系r_dk涉及一个相同的目标；将所述第一关系r_ij和所述第二关系r_dk涉及的不同目标之间的关系的关系值，对所述第一关系r_ij的关系值进行更新；第四处理模块，被配置为利用所述全部目标和更新后的关系值生成场景图。
17.根据本公开实施例的第三方面，提供一种场景图生成装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。
18.根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。
19.通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。
附图说明
20.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
21.图1为本公开一个实施例的待识别图像的示意图；
22.图2为基于图1的场景生成图；
23.图3为本公开一个实施例的场景图生成方法的流程示意图；
24.图4为本公开另一个实施例的待识别图像的示意图；
25.图5为本公开一个实施例的所识别目标的示意图；
26.图6为本公开一个实施例的关系值反馈更新的示意图；
27.图7为本公开另一个实施例的关系值反馈更新的示意图；
28.图8为图4的目标识别示意图；
29.图9为图8的场景图的示意图；
30.图10为本公开一个实施例的场景图生成装置的结构示意图；
31.图11为本公开另一个实施例的场景图生成装置的结构示意图；
32.图12为本公开一个实施例的场景图生成框架示意图。
具体实施方式
33.下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
34.除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
35.同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
36.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。
37.在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。
38.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
39.图3为本公开一个实施例的场景图生成方法的流程示意图。在一些实施例中，下列的场景图生成方法由场景图生成装置执行。
40.在步骤301，对输入图像进行识别，以识别出输入图像中的全部目标。
41.在一些实施例中，如图4所示，在输入图像中，一个小男孩坐在桌边，拿着叉子在吃盛在盘子里的食物。
42.例如，通过利用faster rcnn(faster region-based convolutional neural network，快速区域卷积神经网络)，对图4中的目标进行识别。识别结果如图5所示。
43.如图5所示，目标1为男孩，目标3为手，目标5为嘴，目标7为食物，目标2中包括手和叉子，目标4中包括嘴和食物，目标6中包括盘子和食物，目标8中包括桌子、盘子和食物。即目标2、目标4、目标6和目标8具有异质性。
44.在步骤302，生成关系集合，其中关系集合中包括全部目标中的任意两个目标之间的关系。
45.在一些实施例中，例如art(adaptive reweighting transformer，自适应重加权变换器)，确定任意两个目标之间的关系。
46.例如，目标i和目标j之间的上下文系数eij为
47.e
ij
＝w
t
(wixi⊙
wnxj⊙
(x
ij
+b
ij
))，
ꢀꢀꢀ
(1)
48.其中，xi是图像中第i个目标的视觉特征，xj是图像中第j个目标的视觉特征，b
ij
是第i个目标和第j个目标的空间特征，x
ij
是图像中第i个目标和第j个目标的的视觉特征，ω
t
、wi和wn为相应参数。
49.接下来，利用公式(2)计算第i个目标和第j个目标的关系值。
50.α_ij＝softmax(e
ij
)
ꢀꢀꢀ
(2)
51.例如，从目标1到目标3的关系为r_13，相应的关系值为α_13。从目标6到目标8的关系为r_68，相应的关系值为α_68。
52.在步骤303，在关系集合中，选择出与第一关系r_ij相关联的第二关系r_dk，其中第一关系r_ij为从第i个目标到第j个目标的关系，第二关系r_dk为从第d个目标到第k个目标的关系，1≤i，j，d，k≤n，n为目标总数，i≠j，d≠k，且第一关系r_ij和第二关系r_dk涉及一个相同的目标。
53.在一些实施例中，利用rlp(relationship label propagation，关系标签传播)模型选择出与第一关系r_ij相关联的第二关系r_dk。
54.在一些实施例中，第i个目标和第d个目标相同，第j个目标和第k个目标不同。也就是说，若第一关系为r_ij，则第二关系为r_ik。即第一关系和第二关系有相同的主语。
55.例如，若第一关系为r_12，则相关联的第二关系包括r_13、r_14、r_17等。
56.在一些实施例中，第i个目标和第d个目标不同，第j个目标和第k个目标不同。也就是说，若第一关系为r_ij，则第二关系r_dj。即第一关系和第二关系有相同的宾语。
57.例如，若第一关系为r_18，则相关联的第二关系包括r_48、r_68等。
58.在步骤304，将第一关系r_ij和第二关系r_dk涉及的不同目标之间的关系的关系值，对第一关系r_ij的关系值进行更新。
59.在一些实施例中，对于第一关系r_ij和第二关系r_ik来说，则根据从第j个目标到第k个目标的第三关系r_jk的关系值，更新第一关系r_ij的关系值。
60.例如，若第一关系为r_12和第二关系r_14，则利用关系r_24的关系值α_24对第一关系r_12的关系值α_12进行更新。
61.在一些实施例中，对于第一关系r_ij和第二关系r_dj来说，根据从第i个目标到第d个目标的第四关系r_id的关系值，更新第一关系r_ij的关系值。
62.例如，若第一关系为r_68和第二关系r_18，则利用关系r_61的关系值α_61对第一
关系r_68的关系值α_68进行更新。
63.在一些实施例中，如图6所示，与关系r_12相关联的关系为r_14、r_17和r_13。针对关系r_12和关系r_14，反馈关系r_24的关系值α_24。针对关系r_12和关系r_17，反馈关系r_27的关系值α_27。针对关系r_12和关系r_13，反馈关系r_23的关系值α_23。由此利用关系值α_24、α_27和α_23对关系r_12的关系值α_12进行更新。
64.如图6所示，与关系r_14相关联的关系为r_18、r_24和r_15。针对关系r_14和关系r_18，反馈关系r_48的关系值α_48。针对关系r_14和关系r_24，反馈关系r_12的关系值α_12。针对关系r_14和关系r_15，反馈关系r_45的关系值α_45。由此利用关系值α_48、α_12和α_45对关系r_14的关系值α_14进行更新。
65.如图6所示，与关系r_68相关联的关系为r_18、r_63和r_78。针对关系r_68和关系r_18，反馈关系r_61的关系值α_61。针对关系r_68和关系r_63，反馈关系r_83的关系值α_83。针对关系r_68和关系r_78，反馈关系r_67的关系值α_67。由此利用关系值α_61、α_83和α_67对关系r_68的关系值α_68进行更新。
66.在步骤305，利用全部目标和更新后的关系值生成场景图。
67.在本公开上述实施例提供的场景图生成方法中，通过利用具有相同主语或相同宾语的关系之间的信息传递，能够有效识别复杂场景下物体和关系之间的异质性和同质性，从而生成具有鲁棒性的场景图。
68.在一些实施例中，利用hmp(heterophily-aware message passing，异质性信息传递)模型，来检测不同目标之间的遮挡关系。
69.在一些实施例，关系r_ij和关系r_ik具有相同主语，则进一步判断第j个目标和第k个目标之间的重叠比例是否小于预设门限。若第j个目标和第k个目标之间的重叠比例小于预设门限，则将关系r_jk的关系值乘以第一权值，以得到第一反馈值，其中第一权值为正数。例如，第一权值为1。接下来利用第一反馈值更新关系r_ij的关系值。
70.若第j个目标和第k个目标之间的重叠比例不小于预设门限，则将关系r_jk的关系值乘以第二权值，以得到第二反馈值，其中第二权值为负数。例如，第二权值为-1。接下来利用第二反馈值更新关系r_ij的关系值。
71.这里需要说明的是，由于第j个目标和第k个目标之间的重叠比例较高，因此会对场景图的生成造成干扰。通过研究发现，若给关系r_jk的关系值增加负的权值，可减轻因异质性所引起的场景图生成质量的下降。
72.在一些实施例，关系r_ij和关系r_dj具有相同宾语，则进一步判断第i个目标和第d个目标之间的重叠比例是否小于预设门限。若第i个目标和第d个目标之间的重叠比例小于预设门限，则将关系r_id的关系值乘以第三权值，以得到第三反馈值，其中第三权值为正数。例如，第三权值为1。接下来，利用第三反馈值更新关系r_ij的关系值。
73.若第i个目标和第d个目标之间的重叠比例不小于预设门限，则将关系r_id的关系值乘以第四权值，以得到第四反馈值，其中第四权值为负数。例如，第四权值为-1。接下来，利用第四反馈值更新关系r_ij的关系值。
74.在一些实施例中，如图7所示，与关系r_12相关联的关系为r_14、r_17和r_13。图7与图6的区别在于，在图7中，由于目标2和目标3之间的重叠比例较大，则反馈值为-α_23。由此利用关系值α_24、α_27和-α_23对关系r_12的关系值α_12进行更新。
75.如图7所示，与关系r_14相关联的关系为r_18、r_24和r_15。图7与图6的区别在于，在图7中，由于目标4和目标5之间的重叠比例较大，则反馈值为-α_45。由此利用关系值α_48、α_12和-α_45对关系r_14的关系值α_14进行更新。
76.如图7所示，与关系r_68相关联的关系为r_18、r_63和r_78。图7与图6的区别在于，在图7中，由于目标6和目标7之间的重叠比例较大，则反馈值为-α_67。由此利用关系值α_61、α_83和-α_67对关系r_68的关系值α_68进行更新。
77.例如，通过对图4所示图像进行识别处理，共识别出8个视觉目标，相应的场景图如图9所示。
78.图10为本公开一个实施例的场景图生成装置的结构示意图。如图8所示，场景图生成装置包括第一处理模块101、第二处理模块102、第三处理模块103和第四处理模块104。
79.第一处理模块101被配置为对输入图像进行识别，以识别出输入图像中的全部目标。
80.例如，通过利用faster rcnn，对图4中的目标进行识别。识别结果如图5所示。
81.第二处理模块102被配置为生成关系集合，其中关系集合中包括全部目标中的任意两个目标之间的关系。
82.在一些实施例中，例如art模型，确定任意两个目标之间的关系。
83.第三处理模块103被配置为在关系集合中，选择出与第一关系r_ij相关联的第二关系r_dk，其中第一关系r_ij为从第i个目标到第j个目标的关系，第二关系r_dk为从第d个目标到第k个目标的关系，1≤i,j,d,k≤n，n为目标总数，i≠j，d≠k，且第一关系r_ij和第二关系r_dk涉及一个相同的目标；将第一关系r_ij和第二关系r_dk涉及的不同目标之间的关系的关系值，对第一关系r_ij的关系值进行更新。
84.在一些实施例中，利用rlp模型选择出与第一关系r_ij相关联的第二关系r_dk。
85.在一些实施例中，第i个目标和第d个目标相同，第j个目标和第k个目标不同。也就是说，若第一关系为r_ij，则第二关系为r_ik。即第一关系和第二关系有相同的主语。
86.例如，若第一关系为r_12，则相关联的第二关系包括r_13、r_14、r_17等。
87.在一些实施例中，第i个目标和第d个目标不同，第j个目标和第k个目标不同。也就是说，若第一关系为r_ij，则第二关系r_dj。即第一关系和第二关系有相同的宾语。
88.例如，若第一关系为r_18，则相关联的第二关系包括r_48、r_68等。
89.在一些实施例中，对于第一关系r_ij和第二关系r_ik来说，则根据从第j个目标到第k个目标的第三关系r_jk的关系值，更新第一关系r_ij的关系值。
90.在一些实施例中，对于第一关系r_ij和第二关系r_dj来说，根据从第i个目标到第d个目标的第四关系r_id的关系值，更新第一关系r_ij的关系值。
91.第四处理模块104被配置为利用全部目标和更新后的关系值生成场景图。
92.在一些实施例中，利用hmp模型，来检测不同目标之间的遮挡关系。
93.在一些实施例，关系r_ij和关系r_ik具有相同主语，则进一步判断第j个目标和第k个目标之间的重叠比例是否小于预设门限。若第j个目标和第k个目标之间的重叠比例小于预设门限，则将关系r_jk的关系值乘以第一权值，以得到第一反馈值，其中第一权值为正数。例如，第一权值为1。接下来利用第一反馈值更新关系r_ij的关系值。
94.若第j个目标和第k个目标之间的重叠比例不小于预设门限，则将关系r_jk的关系
值乘以第二权值，以得到第二反馈值，其中第二权值为负数。例如，第二权值为-1。接下来利用第二反馈值更新关系r_ij的关系值。
95.在一些实施例，关系r_ij和关系r_dj具有相同宾语，则进一步判断第i个目标和第d个目标之间的重叠比例是否小于预设门限。若第i个目标和第d个目标之间的重叠比例小于预设门限，则将关系r_id的关系值乘以第三权值，以得到第三反馈值，其中第三权值为正数。例如，第三权值为1。接下来，利用第三反馈值更新关系r_ij的关系值。
96.若第i个目标和第d个目标之间的重叠比例不小于预设门限，则将关系r_id的关系值乘以第四权值，以得到第四反馈值，其中第四权值为负数。例如，第四权值为-1。接下来，利用第四反馈值更新关系r_ij的关系值。
97.图11为本公开另一个实施例的场景图生成装置的结构示意图。如图11所示，场景图生成装置包括存储器111和处理器112。
98.存储器111用于存储指令，处理器112耦合到存储器111，处理器112被配置为基于存储器存储的指令执行实现如图3中任一实施例涉及的方法。
99.如图11所示，该场景图生成装置还包括通信接口113，用于与其它设备进行信息交互。同时，该场景图生成装置还包括总线114，处理器112、通信接口113、以及存储器111通过总线114完成相互间的通信。
100.存储器111可以包含高速ram存储器，也可还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器111也可以是存储器阵列。存储器111还可能被分块，并且块可按一定的规则组合成虚拟卷。
101.此外，处理器112可以是一个中央处理器cpu，或者可以是专用集成电路asic，或是被配置成实施本公开实施例的一个或多个集成电路。
102.本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图3中任一实施例涉及的方法。
103.在一些实施例中，如图12所示，利用faster rcnn模型对输入图像进行识别，以识别出全部目标。然后，利用art模型确定全部目标中的任意两个目标之间的关系。接下来，利用rlp模型，选择出目标关系的关联关系，并利用相应关系值对目标关系值进行更新。此外，还利用hmp模型检测任意两个目标之间的重叠比例是否过大。若两个目标的重叠比例过大，则rlp在使用这两个目标的关系值对目标关系值进行更新时，会先给这两个目标的关系值取反，然后再进行相应的更新处理。
104.在一些实施例中，在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(programmable logic controller，简称：plc)、数字信号处理器(digital signal processor，简称：dsp)、专用集成电路(application specific integrated circuit，简称：asic)、现场可编程门阵列(field-programmable gate array，简称：fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
105.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
106.本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开
限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

技术特征：
1.一种场景图生成方法，包括：对输入图像进行识别，以识别出所述输入图像中的全部目标；生成关系集合，其中所述关系集合中包括所述全部目标中的任意两个目标之间的关系；在所述关系集合中，选择出与第一关系r_ij相关联的第二关系r_dk，其中所述第一关系r_ij为从第i个目标到第j个目标的关系，所述第二关系r_dk为从第d个目标到第k个目标的关系，1≤i,j,d,k≤n，n为目标总数，i≠j，d≠k，且所述第一关系r_ij和所述第二关系r_dk涉及一个相同的目标；将所述第一关系r_ij和所述第二关系r_dk涉及的不同目标之间的关系的关系值，对所述第一关系r_ij的关系值进行更新；利用所述全部目标和更新后的关系值生成场景图。2.根据权利要求1所述的方法，其中，在所述第i个目标和所述第d个目标相同，第j个目标和所述第k个目标不同的情况下，对所述第一关系r_ij的关系值进行更新包括：根据从第j个目标到第k个目标的第三关系r_jk的关系值，更新所述第一关系r_ij的关系值。3.根据权利要求2所述的方法，其中，根据所述第三关系r_jk的关系值更新所述第一关系r_ij的关系值包括：判断所述第j个目标和所述第k个目标之间的重叠比例是否小于预设门限；若所述第j个目标和所述第k个目标之间的重叠比例小于预设门限，则将所述第三关系r_jk的关系值乘以第一权值，以得到第一反馈值，其中所述第一权值为正数；利用所述第一反馈值更新所述第一关系r_ij的关系值。4.根据权利要求3所述的方法，还包括：若所述第j个目标和所述第k个目标之间的重叠比例不小于预设门限，则将所述第三关系r_jk的关系值乘以第二权值，以得到第二反馈值，其中所述第二权值为负数；利用所述第二反馈值更新所述第一关系r_ij的关系值。5.根据权利要求1-4中任一项所述的方法，其中，在所述第i个目标和所述第d个目标不同，第j个目标和所述第k个目标相同的情况下，对所述第一关系r_ij的关系值进行更新包括：根据从第i个目标到第d个目标的第四关系r_id的关系值，更新所述第一关系r_ij的关系值。6.根据权利要求5所述的方法，其中，根据所述第四关系r_id的关系值更新所述第一关系r_ij的关系值包括：判断所述第i个目标和所述第d个目标之间的重叠比例是否小于预设门限；若所述第i个目标和所述第d个目标之间的重叠比例小于预设门限，则将所述第四关系r_id的关系值乘以第三权值，以得到第三反馈值，其中所述第三权值为正数；利用所述第三反馈值更新所述第一关系r_ij的关系值。7.根据权利要求6所述的方法，还包括：若所述第i个目标和所述第d个目标之间的重叠比例不小于预设门限，则将第四关系r_
id的关系值乘以第四权值，以得到第四反馈值，其中所述第四权值为负数；利用所述第四反馈值更新所述第一关系r_ij的关系值。8.一种场景图生成装置，包括：第一处理模块，被配置为对输入图像进行识别，以识别出所述输入图像中的全部目标；第二处理模块，被配置为生成关系集合，其中所述关系集合中包括所述全部目标中的任意两个目标之间的关系；第三处理模块，被配置为在所述关系集合中，选择出与第一关系r_ij相关联的第二关系r_dk，其中所述第一关系r_ij为从第i个目标到第j个目标的关系，所述第二关系r_dk为从第d个目标到第k个目标的关系，1≤i,j,d,k≤n，n为目标总数，i≠j，d≠k，且所述第一关系r_ij和所述第二关系r_dk涉及一个相同的目标；将所述第一关系r_ij和所述第二关系r_dk涉及的不同目标之间的关系的关系值，对所述第一关系r_ij的关系值进行更新；第四处理模块，被配置为利用所述全部目标和更新后的关系值生成场景图。9.一种场景图生成装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-7中任一项所述的方法。10.一种非瞬态计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-7中任一项所述的方法。

技术总结
本公开提供一种场景图生成方法和装置。场景图生成方法包括：对输入图像进行识别，以识别出输入图像中的全部目标；生成关系集合，其中关系集合中包括全部目标中的任意两个目标之间的关系；在关系集合中，选择出与第一关系r_ij相关联的第二关系r_dk，其中第一关系r_ij为从第i个目标到第j个目标的关系，第二关系r_dk为从第d个目标到第k个目标的关系，1≤i,j,d,k≤N，N为目标总数，i≠j，d≠k，且第一关系r_ij和第二关系r_dk涉及一个相同的目标；将第一关系r_ij和第二关系r_dk涉及的不同目标之间的关系的关系值，对第一关系r_ij的关系值进行更新；利用全部目标和更新后的关系值生成场景图。本公开能够生成具有鲁棒性的场景图。本公开能够生成具有鲁棒性的场景图。本公开能够生成具有鲁棒性的场景图。

技术研发人员：詹忆冰林鑫
受保护的技术使用者：京东科技信息技术有限公司
技术研发日：2021.12.09
技术公布日：2022/3/8

专利

最新回复(0)