基于多模态融合的VR情感识别与响应系统及方法

本发明属于情感识别，具体涉及基于多模态融合的vr情感识别与响应系统及方法。

背景技术：

1、随着vr技术(虚拟现实技术)的迅猛发展，人们对于沉浸式体验的需求日益增长。vr技术不仅仅局限于游戏和娱乐领域，其应用范围已经扩展至教育、医疗、心理治疗、建筑设计等多个领域。为了提供更加逼真和引人入胜的体验，现有的vr系统通常依靠先进的图形渲染技术、交互设计以及高保真的视听效果。然而，这些系统在追求视觉和听觉上的极致体验的同时，往往忽略了对用户情感状态的感知与响应，这成为限制vr体验进一步深化的关键因素之一。

2、目前，vr系统主要通过以下几种方式提供沉浸式体验：

3、图形渲染：利用高性能图形处理器和先进的渲染算法，生成高分辨率、高帧率的虚拟场景，以模拟真实世界的视觉感受。

4、交互设计：通过手柄、手势识别、眼球追踪等技术，使用户能够与虚拟环境进行自然、直观的交互。

5、音频处理：运用立体声效、环绕音效等技术，创造空间感强烈的听觉环境，增强沉浸感。在情感识别领域，研究者们已经开发出了基于面部表情识别和语音情绪分析的单一模态情感识别技术。例如，通过分析人脸的关键点变化，识别微笑、皱眉等表情，或通过分析语音的音调、语速、音量等特征，判断说话人的情绪状态。然而，采用单一模态的情感识别技术往往只能捕捉到情感表达的一部分，而人类情感的表达是多维度的，包括面部表情、语音语调、身体姿态、生理信号等。单一模态识别容易遗漏重要信息，导致情感识别的精度和可靠性较低。且现有vr系统缺乏根据用户情绪动态调整内容的能力，这意味着无论用户的情感状态如何变化，vr体验都是固定的，无法根据用户的实时情感反馈进行调整，这不仅削弱了情感共鸣，也降低了用户体验的个性化和沉浸感。

6、公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现思路

1、本发明的目的在于提供基于多模态融合的vr情感识别与响应系统及方法，其能够解决上述背景技术中提出的问题。

2、为了实现上述目的，本发明一具体实施例提供的技术方案如下：

3、基于多模态融合的vr情感识别与响应系统，包括数据采集模块、数据预处理模块、特征提取模块、dcca网络模块、情感识别模块和响应生成模块，数据采集模块用于实时捕捉用户的肢体语言特征信号、口头语言特征信号和生物特征信号，数据预处理模块用于对数据采集模块采集的数据进行预处理，特征提取模块用于提取经数据预处理模块处理后数据的关键特征，dcca网络模块用于学习不同模态数据间的深度关联，保证情感表示的一致性和完整性，情感识别模块基于dcca网络模块实时分析多模态数据，输出统一的情感表示，响应生成模块依据情感识别模块的识别结果，智能调整vr内容，提供个性化体验。

4、在本发明的一个或多个实施例中，所述数据采集模块包括面部表情图像采集模块、语音音频采集模块和生物特征信号采集模块，面部表情图像采集模块用于对面部表情进行采集，同时使用opencv库进行面部检测，结合facs对表情状态进行标注，语音音频采集模块集成在所述vr设备上，采集vr设备用户的声音，且利用soundfile库读取音频，采用librosa库进行音频特征提取，生物特征信号采集模块集成在所述vr设备上，使用arduino作为数据采集平台，实时存储信号数据。

5、在本发明的一个或多个实施例中，所述数据预处理模块包括图像处理模块、音频处理模块、信号处理模块，图像处理模块使用pillow库中的转换功能，将图像转为灰度图，将像素值缩放到[0，1]区间内，音频处理模块使用pyaudioanalysis库中的vad功能实现音频降噪与分割，信号处理模块采用scipy库中的butterworth滤波器进行信号滤波，并使用resample库，确保信号具有相同的采样率。

6、在本发明的一个或多个实施例中，所述特征提取模块包括面部特征提取模块、语调特征提取模块、生理特征提取模块，面部特征提取模块使用tensorflow或pytorch框架下预训练的resnet或vgg16模型，提取特征向量，语调特征提取模块使用wav2vec或deepspeech模型提取语调特征，语调特征包括音高、节奏和强度，生理特征提取模块通过小波变换或快速傅里叶变换，从生物特征信号中提取生理指标。

7、在本发明的一个或多个实施例中，包括情感驱动的内容自适应模块，用于根据用户感情状态，调整vr设备中的内容，提升用户体验。

8、在本发明的一个或多个实施例中，所述内容自适应模块包括状态分类模块、标签映射模块和预设响应模块，状态分类模块用于将多模态情感融合后得到的情感状态进行分类，标签映射模块根据用户当前的情感状态，将情感状态映射到标签上，预设响应模块建立一个包含多种情感导向内容的内容库，根据情感导向内容预设响应规则，规定在检测到特定情感状态时，系统应该如何调整内容。

9、在本发明的一个或多个实施例中，所述内容自适应模块包括调整模块，调整模块用于监测用户的情感状态，并根据用户的情感状态实时变化调整内容，调整模块利用深度学习模型持续分析用户多模态数据，包括面部表情、语音和生物信号，实时识别情感状态，设定情感变化阈值，监测到显著变化，立即触发内容调整流程，根据情感标签，系统检索与之匹配的vr场景、音乐和互动元素，实现情感状态的即时响应；

10、所述调整模块包括预测性情感调整模块、情感共鸣模块和深度学习模块，预测性情感调整模块收集用户在此之前的情感状态数据，形成时间序列，应用双向lstm网络，输入过去的情感状态序列，预测未来情感趋势，根据预测的情感趋势，计算内容调整的平滑曲线，确保过渡过程中的情感强度变化不超过每秒0.05，情感共鸣模块分析用户在类似情境下的群体情感反应，调整个体用户的内容，增强情感共鸣深度学习模块，采用dcca网络架构，深度学习模块包括输入层、特征提取层、融合层和分类层，输入层多模态数据输入，包括面部表情图像、语音波形和生物信号，特征提取层采用resnet50作为面部表情特征提取器，mfcc和spectral contrast用于语音特征提取，自定义一维卷积层处理生物信号，融合层通过注意力机制将不同模态的特征融合，增强关键情感线索的捕捉能力，分类层使用softmax激活函数的全连接层，输出七类情感的概率分布。

11、为了实现上述目的，本发明一具体实施例提供的技术方案如下：

12、基于多模态融合的vr情感识别与响应方法，包括以下步骤：

13、s1、数据采集

14、对用户面部表情图像进行采集，使用opencv库进行面部检测，结合facs对表情关键点进行标注；

15、对用户语音音频进行采集，并利用soundfile库读取音频，采用librosa库进行音频特征提取；

16、采集用户生物特征，且使用arduino作为数据采集平台，实时存储信号数据；

17、s2、数据预处理

18、使用pillow库中的转换功能，将面部表情图像转为灰度图，将像素值缩放到[0，1]区间内；

19、使用pyaudioanalysis库中的vad功能实现语音音频降噪与分割；

20、采用scipy库中的butterworth滤波器进行信号滤波，使用resample库，确保所有信号具有相同的采样率；

21、s3、特征提取

22、加载tensorflow或pytorch框架下预训练的resnet或vgg16模型，提取特征向量；

23、使用wav2vec或deepspeech模型提取语调特征；

24、过小波变换或快速傅里叶变换，从生物特征中提取关键生理指标；

25、s4、实时监测与动态调整

26、将多模态情感融合后得到的情感状态进行分类，根据用户当前的情感状态，将类别映射到响应的标签上；

27、建立一个包含各种情感导向内容的内容库，预设一系列响应规则，根据检测到的情感状态实时调整内容；

28、持续监测用户的情感状态，并根据实时变化调整内容；

29、收集用户对内容调整的反馈，包括直接的评价和间接的行为数据，根据用户的反馈优化内容自适应策略；

30、s5、情感识别

31、将实时采集的数据流经预处理和特征提取后，送入训练好的dcca网络；

32、利用传感器实时捕捉用户的行为数据，获得原始用户数据；

33、对原始用户数据进行清洗、去除噪声、标准化数据格式，以确保数据质量；

34、通过深度学习模型提取处理后的原始用户数据的关键特征；

35、将处理后的特征数据实时输入到已训练的深度共轭成分dcca网络中；

36、网络输出的情感表示通过softmax层转换为概率分布，确定最可能的情感类别及其强度，使用softmax函数将情感表示转换成各类情感的概率分布，每个情感类别的概率值反映了其出现的可能性，选取具有最高概率值的情感类别作为当前识别的情感状态，并结合概率值判断情感强度；

37、s6、响应生成

38、按情感类型和强度等级对vr内容进行分类，设计与每种情感相对应的虚拟场景和互动元素；

39、s7、响应策略制定

40、依据情感识别的结果，动态改变vr场景的亮度、颜色、音效以及互动对象的行为，增强沉浸感和情感共鸣。

41、在本发明的一个或多个实施例中，在所述步骤s4中，还包括：

42、数据采集与记录系统需持续收集用户行为数据，结合情感识别模块提供的用户情感状态数据，形成多维度的用户行为档案；

43、特征工程与模型训练基于收集的数据，进行特征工程，提取出对用户行为预测有显著影响的关键特征；

44、创建详细的用户画像，用户画像随时间动态更新，反映用户偏好的变化；

45、设计a/b测试验证个性化策略的有效性，根据a/b测试结果，分析个性化推荐的成效与不足，调整模型参数或优化推荐算法。

46、在本发明的一个或多个实施例中，所述用户画像包括用户的兴趣爱好信息、情感倾向信息、行为模式信息。

47、与现有技术相比，本发明的基于多模态融合的vr情感识别与响应系统及方法均实现了对用户情感状态的精准识别，显著提升了非遗vr体验的情感互动性和个性化程度，通过多模态数据融合，增强了情感识别的准确性和鲁棒性，改善了单一模态识别的局限性，动态调整vr内容的能力，为用户提供更加贴近个人情感需求的沉浸式体验，促进情感共鸣，增强非遗文化的传播效果；

48、通过采用dcca算法进行多模态数据融合，解决了跨模态情感融合与一致性校准的技术难题，实现了更精准的情感识别，为非遗vr体验带来了革命性的提升，具有重要的学术价值和广阔的应用前景。

技术特征：

1.基于多模态融合的vr情感识别与响应系统，其特征在于，包括

2.根据权利要求1所述的基于多模态融合的vr情感识别与响应系统，其特征在于，所述数据采集模块包括：

3.根据权利要求1所述的基于多模态融合的vr情感识别与响应系统，其特征在于，所述数据预处理模块包括：

4.根据权利要求1所述的基于多模态融合的vr情感识别与响应系统，其特征在于，所述特征提取模块包括：

5.根据权利要求1所述的基于多模态融合的vr情感识别与响应系统，其特征在于，包括情感驱动的内容自适应模块，用于根据用户感情状态，调整vr设备中的内容，提升用户体验。

6.根据权利要求5所述的基于多模态融合的vr情感识别与响应系统，其特征在于，所述内容自适应模块包括：

7.根据权利要求5或6所述的基于多模态融合的vr情感识别与响应系统，其特征在于，所述内容自适应模块包括：

8.基于多模态融合的vr情感识别与响应方法，其特征在于，包括以下步骤：

9.根据权利要求8所述的基于多模态融合的vr情感识别与响应方法，其特征在于，在所述步骤s4中，还包括：

10.根据权利要求9所述的基于多模态融合的vr情感识别与响应方法，其特征在于，所述用户画像包括用户的兴趣爱好信息、情感倾向信息、行为模式信息。

技术总结
本发明公开了基于多模态融合的VR情感识别与响应系统及方法，基于多模态融合的VR情感识别与响应系统包括数据采集模块、数据预处理模块、特征提取模块、DCCA网络模块、情感识别模块和响应生成模块，数据采集模块用于实时捕捉用户的肢体语言特征信号、口头语言特征信号和生物特征信号，数据预处理模块用于对数据采集模块采集的数据进行预处理，特征提取模块用于提取经数据预处理模块处理后数据的关键特征，DCCA网络模块用于学习不同模态数据间的深度关联，保证情感表示的一致性和完整性。与现有技术相比，本发明的基于多模态融合的VR情感识别与响应系统及方法均实现了对用户情感状态的精准识别，显著提升了非遗VR体验的情感互动性和个性化程度。

技术研发人员：徐洁,赵鹏飞,付子云,安秀芳,陈芬
受保护的技术使用者：徐州工业职业技术学院
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)