基于半监督深度非平行支持向量机的智能医疗诊断方法和装置

专利查询2小时前  0


本发明涉及计算机辅助医疗诊断领域,尤其是针对不同患者的基因信息和临床特征的智能医疗诊断数据挖掘任务。具体而言,本发明提出了一种基于半监督深度非平行支持向量机(semi-supervised deep nonparallel support vector machine,简称sdnsvm)的智能医学诊断方法和装置,用于脑胶质瘤的分级诊断。


背景技术:

1、随着智能医疗诊断技术的发展,医学诊断的精确性和效率得到了显著提升。智能医疗诊断主要应用于疾病的早期识别、预后预测、治疗方案的制定、降低误诊和漏诊率,以及患者的实时监控和预警等方面。通过结合先进的机器学习技术,智能医疗诊断系统能够分析大量的临床数据和影像信息,提供辅助决策支持,提高诊断的准确性和效率。

2、在众多医学应用中,脑胶质瘤分级诊断具有特别重要的研究价值和广泛的应用前景。脑胶质瘤是指起源于脑神经胶质细胞的肿瘤,是最常见的原发性颅内肿瘤之一。尽管其发病机制尚未完全明确,但以下两个关键因素对于技术进步具有显著影响:长期暴露于高剂量电离辐射是已知的诱发因素,某些罕见综合征相关的高外显率基因遗传突变也是重要的风险因子。我国脑胶质瘤的年发病率为5~8/10万,5年病死率在所有肿瘤中仅次于胰腺癌和肺癌。根据组织学和影像学标准,脑胶质瘤主要分为两类:低级别胶质瘤(lgg,lower-grade glioma)和多形性胶质母细胞瘤(gbm,glioblastoma multiforme)。低级别胶质瘤生长较慢,恶性程度低;多形性胶质母细胞瘤生长迅速,恶性程度高且预后较差。除了传统的组织学和影像学特征外,临床和基因突变因素(如患者的年龄、性别及特定基因突变状态)也在准确分级和治疗策略制定中起着重要作用。

3、然而,在机器学习领域中,脑胶质瘤分级诊断方法面临两个主要挑战:首先,带有诊断信息的样本获取代价高昂,难以获取足够的数据,导致模型无法从少量数据中学习到足够信息,进而影响分类效果。其次,胶质瘤数据集的类别存在不均衡,即低级别胶质瘤(lgg)数据远多于多形性胶质母细胞瘤(gbm)数据,导致模型在学习过程中忽略少数类,产生错误判断。因此,脑胶质瘤分级诊断是一个不均衡学习问题。

4、在此背景下,相关学者提出了若干解决方案以应对上述挑战:[1]yoon j,zhangy,jordon j,et al.vime:extending the success of self-and semi-supervisedlearning to tabular domain[j].advances in neural information processingsystems,2020,33:11033-11043.[2]pant h,sharma m,soman s.twin neural networksfor the classification oflarge unbalanced datasets[j].neurocomputing,2019,343:34-49.[3]qi z,tian y,shi y.laplacian twin support vector machine forsemi-supervised classification[j].neural networks,2012,35:46-53.[4]ren y,zhuh,tian y,et al.a laplacian svm based semi-supervised classification usingmulti-local linear model[j].ieee transactions on electrical and electronicengineering,2021,16(3):455-463.文献[1]通过自监督预训练表格数据,再利用半监督进行分类任务,并利用掩码向量损坏数据来扩充表格数据。文献[2]将twsvm扩展到神经网络框架中,并针对类别不均衡问题,提出了双神经网络的构建,其中通过训练两个神经网络分别学习特征空间中的线性分类器,类似于twsvm的超平面模型,以此来处理不平衡数据集。文献[3]针对半监督问题,引入流形正则项与svm相结合来解决该问题。文献[4]通过可解释的模型将潜在分界信息融入核函数中,提高了理论可解释性。尽管这些方法在一定程度上缓解了半监督学习和svm的不均衡问题,但仍存在以下挑战:

5、1.文献[1]中需先预训练再进行半监督训练,导致训练时间显著增加。

6、2.文献[2]尽管解决了类别不平衡问题,但多分类问题需解大量参数,增加了计算量和时间。

7、3.文献[3]和[4]未考虑类间不均衡性,导致模型对少数类有偏见。

8、为此,本发明将提出了一种基于半监督深度非平行支持向量机的智能医疗诊断方法,以更有效地应对这些挑战,提升脑胶质瘤分级诊断的准确性和效率。


技术实现思路

1、为了克服智慧医疗中的脑胶质瘤分级诊断难题,本发明提出了一种基于半监督深度非平行支持向量机(semi-supervised deep nonparallel support vector machine,sdnsvm)的智能医学诊断方法和装置。该方法通过神经网络框架实现,结合非平行支持向量机的损失函数,充分利用少量标记数据和大量未标记数据,解决数据不足和类别不均衡问题,提高脑胶质瘤分级诊断准确性和效率。

2、具体来说,本发明的技术创新包括以下几个方面:

3、1)本发明引入了一种自监督的数值特征增广机制。通过掩码向量和数据特征构建特征生成器,生成新的特征来增广原始表格数据,用于增强特征之间的相互关系学习,提升模型的泛化能力。

4、2)本发明提出了伪标签的半监督学习策略。通过利用模型对未标记数据的预测结果作为伪标签,扩充训练集并提升模型性能。为了确保伪标签的高质量,本发明引入了置信度筛选机制,从而增强无监督样本分类的可靠性。

5、3)为了解决类别不均衡问题,本发明通过从少数类样本中进行随机采样,增加新的样本,使各类样本比例达到平衡。使模型在学习过程中避免对多数类的偏好,提高模型对少数类的识别能力,确保分类的准确性和公平性。

6、4)本发明构建了非平行类内和类间损失机制。为处理复杂的多类别学习场景,

7、通过结合类内和类间的局部信息,并采用参数共享机制来寻找最优超平面,

8、增强了对多类别信息的学习能力,提供了模型的学习效率。

9、为了便于更好的理解和描述,本发明制定统一的符号表示规则,其中标量用未加粗的小写字母或大写字母表示,如:x、x。向量用加粗小写字母表示,如:x。矩阵用加粗大写字母表示,如:x。表1为本发明所涉及的符号说明。

10、

11、

12、表1 sdnsvm符号说明表

13、本发明为基于半监督深度非平行支持向量机(sdnsvm)的智能医学诊断方法,总流程如图1所示,基于半监督深度非平行支持向量机的智能医疗诊断方法,具体步骤描述如下:

14、步骤一:构建和预处理医学数据集。

15、本步骤实现对医学数据集的构建和预处理,包括数据筛选与预处理、数据归一化和数据标注,不均衡数据均衡化。具体描述如下:

16、(1.1)数据筛选与预处理。首先,对临床医学数据进行筛选和分析,提取出最频繁突变的20个基因位和2个临床特征:性别、诊断年龄。为了确保数据的完整性和质量,对原始数据进行了预处理,包括过滤缺失关键信息的实例,将确诊年龄从字符串格式转换为连续值,以及排除不相关的列(如病历号、初步诊断和项目)。

17、(1.2)数据归一化和数据标注。为了适应模型的输入要求,对数据进行归一化处理。归一化处理确保了不同特征之间的数值范围一致,从而提高了模型训练的效果。具体而言,归一化处理后,根据医生的诊断结果,对数据打标签,得到有监督样本其中xi∈rd为维度d的样本特征,yi为样本对应标签,nl为有监督样本规模;对于没有打标签的数据,则为无监督样本其中nu为无监督样本规模。

18、(1.3)不均衡数据均衡化。对预处理后的脑胶质瘤数据集进行检查,以确保数据的准确性和一致性。针对数据集中类别不均衡的问题,通过对少数类样本进行随机采样,增加少数类样本的数量,使数据达到平衡状态。从而防止模型在学习过程中对多数类产生偏好,从而提高对少数类的识别能力。

19、先计算每个类别的样本数量记作nk,再确定目标样本数量。假设最多样本的类别是nmax,则目标是将所有类别的样本数量增加到nmax。然后计算需要增加的样本数量,对于每个少数类k,需要增加的样本数量为:

20、

21、最后从少数类k的样本中随机选择个样本,并将这些样本添加到数据集中。通过这个过程,所有类别的样本数量将趋于相同,从而平衡数据集。

22、步骤二:增广有监督样本和无监督样本。

23、本步骤实现数据集样本的增广功能,通过构建掩码生成器和特征生成器,整合增广输出,从而提高模型的训练效果和泛化能力。受自监督学习的启发,通过对原始训练数据xi,ui进行一系列增强变换,生成新的训练样本,学习数据样本之间潜在关系,从而学习到有用的特征表示,实现数据样本的多样性。

24、具体描述如下:

25、(2.1)构建掩码生成器(mask generator)。该生成器输出维度为d的二进制掩码记作m=[m1,…,md]t∈{0,1}d,其中md是以概率pm的伯努利分布中随机采样得到的,即:

26、

27、(2.2)构建特征生成器(pretext generator)。该生成器将输入的掩码m并计算对应减法操作(1-m),根据(1-m)和原始样本特征逐元素相乘得到(1-m)⊙s。将原始特征样本s(该样本可为有监督样本或者无监督样本)逐列随机打乱得到与掩码m逐元素相乘,记作最终操作可以表示为:

28、

29、其中,gm为特征生成器,为增广特征(enhancing features),⊙为逐元素相乘,s为样本,为随机打乱的特征矩阵。式(3)解释为保留掩码m中数值为1的部分加上掩码m数值为0部分的原始样本。

30、(2.3)整合增广输出。根据式(3),对样本s分别取有监督样本x,无监督样本u1,u2和掩码m,得到相应有监督样本增广特征和无监督样本增广特征

31、步骤三:计算重构损失和一致性损失。

32、本步骤实现了计算重构与一致性损失的功能,包括构建特征表示网络模型、计算特征相应的logits、计算重构特征表示、计算样本的重构损失和计算掩码重构损失。重构损失衡量模型重构特征与原始特征之间的差异,而一致性损失确保神经网络的输出在不同条件下保持一致。本发明网络模型结构图如图2所示,具体描述如下:

33、(3.1)构建特征表示网络模型f。为了充分利用神经网络强大的特征提取能力,本发明采用网络模型,来提取样本在非线性空间中的特征表示,取代传统的核函数实现的非线性变换。具体来说,网络f由编码器fenc和解码器fdec构成,均采用3层全连接层结构。编码器fenc负责将输入数据映射到一个紧凑的特征空间中,而解码器fdec则用于重构输入数据,具体形式如下:

34、

35、其中,为函数复合符号。f由编码器fenc和解码器fdec复合构成作为整体网络。编码器-解码器结构不仅能够有效捕捉样本的复杂非线性特征,还能提高特征表达的准确性和鲁棒性。

36、(3.2)计算特征相应logits。将增广特征拼接输入编码器fenc,得到相应的logits,记作

37、

38、其中,we,其中,we和be为网络权重和偏置,为向量拼接符号。通过拼接增广特征,将其输入编码器并输出相应的logits。

39、(3.3)计算重构特征表示。将增广特征拼接输入编码器-解码器模型,得到有监督样本重构特征无监督重构特征和掩码重构特征

40、

41、其中,wd和bd为网络权重和偏置。通过拼接增广特征并输入编码器-解码器模型,输出对应的重构特征。

42、(3.4)计算样本的重构损失。重构损失能够评估自编码器重构样本与原始样本之间的差异程度,这一计算流程如图3所示。

43、计算有监督样本均方误差损失:

44、

45、其中,nl为有监督样本规模,原始样本特征x和重构样本特征当最小化该损失时能够减小x与之间的差异。

46、计算无监督样本的重构损失:

47、

48、其中,nu为无监督样本规模,原始无监督样本特征u1和重构无监督样本特征以最小化该损失为目的,减小u1与之间的差异,从而确保重构特征与原始特征的一致性。

49、(3.5)计算掩码重构损失。对原始掩码m和重构掩码计算交叉熵损失:

50、

51、其中,d为掩码m的规模大小。通过计算交叉熵损失来评估原始掩码m和重构掩码之间概率分布的差异。

52、(3.6)计算无监督样本的一致性损失。计算无监督样本logits,和的一致性损失(consistency loss):

53、

54、其中,nu为无监督样本规模。在相同样本的情况下经过增强后的预测结果,和仍能保持一致,以此来评估模型在预测层面上对数据变化保持稳健性的能力。

55、步骤四:使用置信度筛选高质量伪标签。

56、本步骤通过生成和筛选高质量的伪标签,实现对无监督样本的有效利用。包括对无监督样本生成伪标签向量,并筛选出高质量的伪标签,以增强无监督样本预测的可靠性。通过使用置信度阈值对伪标签进行筛选,可以确保模型在训练过程中使用的伪标签具有较高的准确性和可信度。具体描述如下:

57、(4.1)对无监督样本作伪标签向量。根据式(5)描述,为无监督样本只经过编码器fenc得到的logits。对于有:

58、

59、其中,为每个类别输出,k为类别。表示每个类别输出的向量。

60、将式(11)得到的取绝对值,得到通过激活函数softmin得到映射为0-1之间的实数,记作并且归一化保证和为1,即:

61、

62、其中,σ为激活函数softmin的符号表示。所有概率之和为1。

63、(4.2)筛选高质量伪标签。引入标量超参数置信度阈值τ∈[0,1],预测结果在该阈值之上则保留该类别伪标签(pseudo label)。在此基础上,增加置信度阈值能筛选可信度更高的伪标签样本。先取其qk中最大概率与置信度阈值τ对比,大于该阈值则保留。

64、

65、其中,为指示函数,max(qk)为无监督样本最大类别概率,当最大类别概率大于置信度阈值τ则反之为0。

66、根据式(13),若大于置信度阈值τ,则取出伪标签记作

67、

68、其中,伪标签为qk中最大概率的类别。

69、步骤五:构建分类任务损失函数。

70、本步骤实现分类任务的损失函数设计,包括构建非平行类内损失函数和构建非平行类间损失函数。通过结合类内和类间的局部信息并采用参数共享机制,本发明为每个类别寻找一个最优超平面fk(x),从而提高分类准确性和模型的鲁棒性,形式如下:

71、

72、其中,fk(x)是类别k的近端超平面。wk和bk是对应超平面的权重和偏置,fenc是编码器,x是样本的特征。且本发明可用于多分类,其中采用类似“一对余”的思路来处理多分类学习问题,即对于k类分类,构造k个二分类的分类器,第k个分类器中第k类为正类,其余类都作为负类进行训练。本发明计算类内、类间损失流程如图4所示。

73、(5.1)构建非平行类内损失函数。对于所有样本点s的第k类构建类内损失函数。要求第k类的输出为最小。以一个样本点i为例,根据真实标签y与伪标签先筛选出第k类的输出,记作:

74、

75、再计算第k类的最小距离,损失函数构建如下:

76、

77、对第k类做2-范数,求第k类到原点的距离。

78、除此之外,还要求除第k类之外的类的最小输出与第k类所属超平面距离至少为α,以一个样本点i为例,损失函数构建如下:

79、

80、其中,α∈r为边距(margin)。式(18)求得除第k类之外的类的最小输出,式(19)要求除第k类之外的类和第k类所属超平面有一个边距的距离。

81、(5.2)构建非平行类间损失函数。对于所有样本点s的第k类与除第k类之外的类构建类间损失函数。要求除第k类之外的类的最小输出与第k类的距离至少为α,以一个样本点i为例,损失函数构建如下:

82、

83、其中,α∈r为边距(margin)。式(20)要求除第k类之外的类和第k类有一个边距的距离。

84、步骤六:构建模型总体损失函数。

85、本步骤整合一个总体损失函数,包括促进类内样本紧凑性,类间样本区分度,模型重构精度和预测一致性。将这些目标损失函数融合到一个统一的损失函数中,能够引导模型在训练过程中不断优化,从而提升模型的整体泛化能力。具体描述如下:

86、(6.1)融合类内和类间损失函数。在这一子步骤中,将类内损失函数和类间损失函数进行融合,以同时优化类内紧凑性和类间区分度。具体而言,通过结合式(17),式(19)和式(20)进行融合:

87、

88、其中,wik,为正则项,λ1∈r,λ2∈r,λ3∈r为权衡参数。对式(21)进行分析,最小化目标函数的第一项是正则项,为了实现结构风险最小化,即权衡模型复杂度和模型精度,避免过拟合;第二项将第k类样本点到该类的超平面距离更近;第三项要求其他类别样本点到第k类样本点至少为一个边距的距离,即松弛变量为在不满足约束条件时的度量误差,旨在最大化的将两类样本点分开;第四项要求其他类别样本点与第k类样本点所属超平面至少为一个边距的距离,即其他类别尽可能远离第k类样本点所属超平面。

89、有监督损失函数为:

90、

91、表示对所有有监督样本做损失。

92、无监督损失为:

93、

94、对式(23)进行分析,为指示函数,max(qik)为无监督样本最大类别概率,当最大类别概率大于置信度阈值τ,则反之为0,表示筛选高质量伪标签加入训练。

95、(6.2)构建统一的模型总体损失函数。在这一子步骤中,将综合类内和类间损失与模型重构损失和预测一致性损失结合,构建一个统一的模型总体优化损失函数。根据以上损失(22),(23)与步骤的重构损失(7),(8),(9)与一致性损失(10),整合出总体损失函数。

96、loss=λx·(lxr+lx)+λu·(lur+luc+lu)+λm·lm (24)

97、其中,λx∈r,λu∈r,λm∈r为权衡参数。

98、步骤七:医疗诊断分级评估阶段。

99、本步骤旨在实现对脑胶质瘤数据的分级诊断。对于一个新数据样本,即脑胶质瘤数据x,通过计算x到每个非平行近端超平面的距离来判断新样本的类别。每一个非近端超平面就代表一种类别(低级别胶质瘤lgg、多形性胶质母细胞瘤gbm)。距离最近的超平面的类别就是新样本的类别。决策函数如下:

100、

101、其中,|·|表示绝对值,k=1,…,k表示第k个类别。

102、本发明,针对少量数据下类别不均衡的脑胶质瘤分级估计问题,可用于识别肿瘤,预测其恶性程度和复发风险,提出sdnsvm方法,当数据集具有少量数据和类不平衡学习等特征时,sdnsvm方法表现更加优越。

103、本发明的优点是:

104、1)本发明引入了一种自监督的数值特征增广机制。通过掩码向量和数据特征构建特征生成器,生成新的特征来增广原始表格数据,用于增强特征之间的相互关系学习,提升模型的泛化能力。

105、2)本发明提出了伪标签的半监督学习策略。通过利用模型对未标记数据的预测结果作为伪标签,扩充训练集并提升模型性能。为了确保伪标签的高质量,本发明引入了置信度筛选机制,从而增强无监督样本分类的可靠性。

106、3)为了解决类别不均衡问题,本发明通过从少数类样本中进行随机采样,增加新的样本,使各类样本比例达到平衡。使模型在学习过程中避免对多数类的偏好,提高模型对少数类的识别能力,确保分类的准确性和公平性。

107、4)本发明构建了非平行类内和类间损失机制。为处理复杂的多类别学习场景,通过结合类内和类间的局部信息,并采用参数共享机制来寻找最优超平面,增强了对多类别信息的学习能力,提供了模型的学习效率。


技术特征:

1.基于半监督深度非平行支持向量机的智能医疗诊断方法,包括如下步骤:

2.如权利要求1所述的基于半监督深度非平行支持向量机的智能医疗诊断方法,其特征在于,步骤一具体包括:

3.如权利要求1所述的基于半监督深度非平行支持向量机的智能医疗诊断方法,其特征在于,步骤二具体包括:

4.如权利要求1所述的基于半监督深度非平行支持向量机的智能医疗诊断方法,其特征在于,步骤三具体包括:

5.如权利要求1所述的基于半监督深度非平行支持向量机的智能医疗诊断方法,其特征在于,步骤四具体包括:

6.如权利要求1所述的基于半监督深度非平行支持向量机的智能医疗诊断方法,其特征在于,步骤五具体包括:

7.如权利要求1所述的基于半监督深度非平行支持向量机的智能医疗诊断方法,其特征在于,步骤六具体包括:

8.如权利要求1所述的基于半监督深度非平行支持向量机的智能医疗诊断方法,其特征在于,步骤七具体包括:实现对脑胶质瘤数据的分级诊断;对于一个新数据样本,即脑胶质瘤数据x,通过计算x到每个非平行近端超平面的距离来判断新样本的类别;每一个非近端超平面就代表一种类别(低级别胶质瘤lgg、多形性胶质母细胞瘤gbm);距离最近的超平面的类别就是新样本的类别;决策函数如下:

9.如权利要求1所述的基于半监督深度非平行支持向量机的智能医疗诊断方法,其特征在于:步骤一所述的数据是来源于tcga(the cancer genome atlas,癌症基因组图谱)项目的低级胶质瘤((lgg,lower-grade glioma)和胶质母细胞瘤(gbm,glioblastomamultiforme)脑胶质瘤子项目;

10.基于半监督深度非平行支持向量机的智能医疗诊断装置,其特征在于:包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-9中任一项所述的基于半监督深度非平行支持向量机的智能医疗诊断方法。


技术总结
基于半监督深度非平行支持向量机的智能医疗诊断方法和装置,其方法包括:1)构建和预处理医学数据集;2)增广有监督样本和无监督样本;3)计算重构损失和一致性损失;4)使用置信度筛选高质量伪标签;5)构建分类任务损失函数,其中采用类似“一对余”来处理多分类学习问题;6)构建模型总体损失函数;7)构建医疗诊断分级评估决策函数;8)针对新的医疗样本,预测该样本的分级评估结果。

技术研发人员:陈伟杰,李若灵,叶娅芬,陈珂,李波億,刘佳狄
受保护的技术使用者:浙江工业大学
技术研发日:
技术公布日:2024/12/5

最新回复(0)