一种数据清洗方法和利用知识图谱构建疾病诊断方法与流程

专利查询2023-8-20 160

1.本发明涉及知识图谱在疾病诊断中应用的领域，特别是一种数据清洗方法，还涉及使用所述数据清洗方法的利用知识图谱构建疾病诊断方法。

背景技术：

2.在疾病诊断中，就医者因为非专业人士因此其沟通过程中存在大量的虚假信息、情感信息，而针对疾病，就医过程的本质是针对症状，分析病因，并基于所述二者确定各种可选择的治疗方案，并从中选择最优的，或者是与所述症状和病因最相关的治疗方案。随着人工智能的发展、知识图谱技术的完善，能够最大限度的利用网络资源、利用每一次诊疗所积累出的经验并固定下来是未来的趋势，但是如何最好的去伪存真，精准的抓住症状、病因和治疗方案，就需要在每次人工问答中把握住患者的回答、专家的询问、专家的反馈等重要信息。这也是患者和关心健康的用户们亟需的。
3.另外随着大部分青少年的不规则作息，大大的提高了患病的风险。在这部分青少年当中对医疗方面、健康营养管理方面的知识还相对比较薄弱。其中对患病后对病因、治疗方案的寻找是整个系统最为重要的一环，患者可输入相应的症状现象查询到与之相关联的可能存在的病因，井通过询问系统的方式获得最终病因进而找到对应的治疗方案。

技术实现要素：

4.针对上述问题及现有方案的缺点，本专利提出一种数据清洗方法,包括如下步骤：步骤1，通过人工客服获取就用户有关的疾病各参与方给出的信息并存储；步骤2，将就用户有关的疾病各参与方给出的信息转换为计算机可识别的词向量数据并且人工标识所述就用户有关的疾病各参与方给出的信息的含义；步骤3，将所述词向量数据输入循环神经网络中以理解所述各参与方表达的含义；步骤4，对步骤2中所获得的所述词向量数据和所述人工标识进行二维训练，以便对后续输入的就用户有关的疾病各参与方给出的信息进行感情分类。
5.优选地，所述步骤4还包括步骤41，对步骤2中所获得的所述词向量数据和所述人工标识进行二维训练，以便对后续输入的就用户有关的疾病各参与方给出的信息进行关键字分类。
6.优选地，所述步骤2还包括步骤21，对所述就用户有关的疾病各参与方给出的信息进行关键字标识并将所述关键字转换为数字。
7.最好，就用户有关的疾病各参与方给出的信息包括下述之一或者全部：专家询问信息、用户给出的与疾病相关的用户回答信息和专家判断结果。
8.更好地，还包括步骤5，构建所述专家询问信息的关键字、用户回答信息的关键字和专家判断结果关键字三元组数据并保存。
9.优选地，就用户有关的疾病各参与方给出的信息包括以下之一或者全部：疾病的症状、疾病的病因和疾病的治疗方案。
10.更好地，所述关键字分类是通过bi-lstm+crf模型实现的。
11.本范明还提出一种利用知识图谱构建疾病诊断方法，使用了上述的数据清洗方法。
12.优选地，包括步骤6，利用所述三元组数据与已有的医疗图谱实体数据进行匹配以便对智能问答模块后台知识图谱数据进行更新。
13.更好地，包括步骤7，通过更新的知识图谱数据以询问特征方式确定最终确诊并提供治疗方案。
14.专利方案优点包括：针对于患者，可以尽快的排查到自身症状原因，进而能第一时间得到有效的治疗方案以用来减缓病情的继续加重；对于疾病的管理(如：尿病)，也可提供相应的建议来调整患者自身的生活(如：“糖尿病患者是否会对后代产生影响。”)；针对于医生（医院）方面，可以减少医院（医生）的压力，为一些非常紧急患者能提供更多资源进行治疗；针对于广大群众：本专利系统可提供相应的健康养生方面的知识，为广大群众健康生活提供帮助，避免患病。
15.专业术语说明：jieba：实现自然语言的切词，提出一些停用词无意义的语气词）发现我的头有点隐隐作痛"
→
[“我，最近发现”，我有点，隐隐作痛]。
[0016]
word2vec:将自然语言转换为数字标识，因为算法模型不接受自然语言输入需要转换成数字，与one-hot(0001000)不同，word2vec转换后可保留自然语言信息。word2vec原理：词向量转换优先将词进行one-hot编码，word2vec会随机初始化w权重矩阵，与转换后的one-hot编码进行内积运算，对内积后的结果进行加权平均计算得到θ,word2vec在最后会添加全连接网络w,词向量=θw。
[0017]
bi-lstm:双向的循环神经网络，通过对词向量的训练会考虑当前时刻之情况与之后情况，对处理自然语言有显著效果。如：“我感觉到我有点扇塞，应该是因为我扇炎导致的，不是感冒导致的，因为我并没有感觉到其他不舒服的地方"通过bi-lstm考虑整体话术进行语言分析，大概率的减少误差。
[0018]
crf:无向图模型，利用隐状态对输入的数据进行分析。crf原理：引入crf是为了在已知每个字的概率分布的情况下，找到使得这一个序列下最有可能出现的序列标注的概率，由bi-lstm计算出的 hidden层(n维向量)，传入crf模型，利用crf模型来处理bi-lstm存在的局部归一化问题。具体计算公式如下lstm:循环神经网络，通过对词向量的训练让模型明白所输入的语句含义从而判断是“正向语言”“负向语言”“其他语言。lstm原理：lstm模型会将喂入的矢量数据进行整理给各个位置的数添加权重w,其中lstm在最后会添加全连接层为公式增加b偏置。利用不断地给模型喂入数据让模型自调整w权重、b偏置已达到尽可能的拟合。
[0019]
match:类似于 nosql语言，对图数据库的增删查改操作。
附图说明
[0020]
图1为本发明的一种数据清洗方法的流程示意图；图2为本发明的一种利用知识图谱构建疾病诊断方法的流程示意图。
具体实施方式
[0021]
为了使本发明的目的、技术方案及优点更加的清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0022]
在本专利的基于知识图谱的诊断方案中包括one
‑ꢀ
stype诊断，智能问答问诊和人工问答问诊的组合方案。其中，本发明的给出了一种数据清洗方法，参见图1，包括如下步骤：步骤1用附图标记1001表示，通过人工客服获取就用户有关的疾病各参与方给出的信息并存储；步骤2用附图标记1002表示，将就用户有关的疾病各参与方给出的信息转换为计算机可识别的词向量数据并且人工标识所述就用户有关的疾病各参与方给出的信息的含义；步骤3用附图标记表示，将所述词向量数据输入循环神经网络中以理解所述各参与方表达的含义；步骤4用附图标记表示，对步骤2中所获得的所述词向量数据和所述人工标识进行二维训练，以便对后续输入的就用户有关的疾病各参与方给出的信息进行感情分类。
[0023]
图2中完整示出了本发明的基于知识图谱的疾病诊断方法，其中，首先是用户发现疾病症状，也称为用户发现现象9001，利用初级的模型算法one-stype进行判断9002如可可判断就给出确诊疾病原因和治疗方案。如果不能判断则进入智能问答模型9004，其中会有常规的知识图谱，在这个模型算法下如果可以针对所述疾病进行判断的话，则进入同义词库9007，然后进入到分析工具jieba和word2vec处理9008中，然后会进行情感分类9009并进行确诊9010。
[0024]
当智能问答9004不能判断所述疾病时，则进入到人工问诊环节9005，在这个环节中，如图2所示可以直接进入到确诊处理9006中，并且还进入到同义词库9007，然后进入到处理工具jieba和word2vec处理9008环节中，并进一步进入到情感分类环节9009，此时进行数据清洗并更新智能问答的知识图谱并存储9012，从而在更加完善的知识图谱数据库9013中再次发起机器询问，并根据新的知识图谱数据库给出的确诊病因和方案进行确诊。
[0025]
本专利优选实施例的一个变型为，所述数据清洗方法包括如下步骤：s3011训练情感分类模型，s30111利用已经使用人工客服所获取患者的数据转换为词向量并且人工标识用户回答的含义(0【是】、1【否】、2【其他】)，s30112转换后的词向量是计算机可识别数据，喂入lstm循环神经网络中让lstm模型更好的理解患者表达含义。(x:语句词向量，y:0/1/2)；s30113通过提供的x,y训练模型，使得模型可以对后续输入的话术进行感情分类；s3012关键字分类模型,s30121利用已经使用人工客服所获取专家询问的数据转换为词向量并且人工标识专家询问的关键字(如：是否感觉到头晕。关键字：头晕)；s30122将x专家询问的整个自然语言）y(关键信息【可多个】)进行词向量处理将汉字转换为数字；s30123将xy同时喂给
bi-lstm+crf模型，bi-lstm+crf模型会对x输入的词向量进行扫描结合y所给的提取的信息数据维度进行识别训练；s302将患者回答信息做完情感分析后再通过与s3012一样的流程对患者回答的信息进行抽取关键字操作;s3021利用规则结合情感分类模型与实体识别模型将专家询问关键字、患者回答的关键字、最终专家判定诊断结果关键字，构建三元组数据保存。
[0026]
本发明的一种利用知识图谱构建疾病诊断方法的一个优选实施例为：one
‑ꢀ
stype诊断:部分简单可直接诊断的病情（如：感冒吃点什么药、擦伤面不大是否需要涂抹药物等；智能问答问诊：通过one
‑ꢀ
stype无法判断的问题进入该模块继续判断；人工问答问诊[:前两个机器都无法判断的最后转交于人工处理，本专利包括如下步骤：s1提取疾病相关信息(可在大部分医疗网站扒取、自身的数据积累)；s2使用疾病基础信息、治疗方案信息、并发症信息等数据利用之间的关系构建医疗知识图谱；s201拆解疾病信息一些相关属性、井发症、治疗措施在neo4j采用create创建语句构建节点及节点属性（ps:当数据较多时可采用 import命令导s202采用 create创建语句建立之间的关系。从疾病名称节点向后行生，构成疾病并发症；从疾病名称节点向后行生，构成疾病原因：从疾病原因节点向后行生，构成疾病治疗方案；从疾病名称节点向后行生，构成疾病治疗方案。
[0027]
s3数据清洗包括：s3011训练情感分类模型，s30111利用已经使用人工客服所获取患者的数据转换为词向量并且人工标识用户回答的含义(0【是】、1【否】、2【其他】)，s30112转换后的词向量是计算机可识别数据，喂入lstm循环神经网络中让lstm模型更好的理解患者表达含义。(x:语句词向量，y:0/1/2)；s30113通过提供的x,y训练模型，使得模型可以对后续输入的话术进行感情分类；s3012关键字分类模型,s30121利用已经使用人工客服所获取专家询问的数据转换为词向量并且人工标识专家询问的关键字(如：是否感觉到头晕。关键字：头晕)；s30122将x专家询问的整个自然语言）y(关键信息【可多个】)进行词向量处理将汉字转换为数字；s30123将xy同时喂给bi-lstm+crf模型，bi-lstm+crf模型会对x输入的词向量进行扫描结合y所给的提取的信息数据维度进行识别训练；s302将患者回答信息做完情感分析后再通过与s3012一样的流程对患者回答的信息进行抽取关键字操作;s3021利用规则结合情感分类模型与实体识别模型将专家询问关键字、患者回答的关键字、最终专家判定诊断结果关键字，构建三元组数据保存。
[0028]
s4利用提取出专家询问关键信息与已有的医疗图谱实体数据相匹配关联s401使用 create创建语句构建症状节点，结合患者回答与之间的相关性拼接至疾病后，并使用 create创建语句建立出现症状对应的治疗方案；s5使用整理后的三元组数据对智能问答模块后台知识图谱数据库进行更新；s501只要进入人工模块就说明数据库中末记录当前用户所间问的问题，直接通过s3所提方式整理加入至数据库中。s6通过询问特征方式确定最终确诊并提供治疗方案：s601利用已保存在数据库中的症状对用户进行询问是否存在该问题来判断疾病及提供相应的治疗方案。s602询可过程与人工模块类似，专家询问变为机器询问，最后确诊方案。s7回答及推理包括：s701正向推导，s7011采用在s3过程训练好的实体识别对输入进来的自然语言进行实体识别，提取出需要章询的实体及关系现象，若输入直接为所需实体则不需要进入；s7012利用 match询语句通过疾病对应的症状及属性对患者进行询问。s702反向推理：利用定状确定的疾病当作唯索引key值从现象出发，利用类似决策树/二叉树算法的方式从现象找与之有关系的节点(“关系线寻找”)，反向回溯至其他相关
节点，可推理井发症的治疗方案、该治疗方案是否可治疗其他疾病等等。s7021对s702说明：通过关系线可无限制的寻找推理，在s702中只单单举例一方面，具体情况可根据具体业务需求来终止推理。
[0029]
上述各实施例仅是本发明的优选实施方式，在本技术领域内，凡是基于本发明技术方案上的变化和改进，不应排除在本发明的保护范围之外。

技术特征：
1.一种数据清洗方法,其特征在于，包括如下步骤：步骤1，通过人工客服获取就用户有关的疾病各参与方给出的信息并存储；步骤2，将就用户有关的疾病各参与方给出的信息转换为计算机可识别的词向量数据并且人工标识所述就用户有关的疾病各参与方给出的信息的含义；步骤3，将所述词向量数据输入循环神经网络中以理解所述各参与方表达的含义；步骤4，对步骤2中所获得的所述词向量数据和所述人工标识进行二维训练，以便对后续输入的就用户有关的疾病各参与方给出的信息进行感情分类。2.根据权利要求1所述的数据清洗方法，其特征在于，所述步骤4还包括步骤41，对步骤2中所获得的所述词向量数据和所述人工标识进行二维训练，以便对后续输入的就用户有关的疾病各参与方给出的信息进行关键字分类。3.根据权利要求2所述的数据清洗方法，其特征在于，所述步骤2还包括步骤21，对所述就用户有关的疾病各参与方给出的信息进行关键字标识并将所述关键字转换为数字。4.根据权利要求3所述的数据清洗方法，其特征在于，就用户有关的疾病各参与方给出的信息包括下述之一或者全部：专家询问信息、用户给出的与疾病相关的用户回答信息和专家判断结果。5.根据权利要求4所述的数据清洗方法，其特征在于，还包括步骤5，构建所述专家询问信息的关键字、用户回答信息的关键字和专家判断结果关键字三元组数据并保存。6.根据权利要求5所述的数据清洗方法，其特征在于，就用户有关的疾病各参与方给出的信息包括以下之一或者全部：疾病的症状、疾病的病因和疾病的治疗方案。7.根据权利要求6所述的数据清洗方法，其特征在于，所述关键字分类是通过bi-lstm+crf模型实现的。8.一种利用知识图谱构建疾病诊断方法，其特征在于，使用了根据权利要求1-7中任一项所述的数据清洗方法。9.根据权利要求8所述的利用知识图谱构建疾病诊断方法，其特征在于，包括步骤6，利用所述三元组数据与已有的医疗图谱实体数据进行匹配以便对智能问答模块后台知识图谱数据进行更新。10.根据权利要求9所述的利用知识图谱构建疾病诊断方法，包括步骤7，通过更新的知识图谱数据以询问特征方式确定最终确诊并提供治疗方案。

技术总结
一种数据清洗方法,包括如下步骤：步骤1，通过人工客服获取就用户有关的疾病各参与方给出的信息并存储；步骤2，将就用户有关的疾病各参与方给出的信息转换为计算机可识别的词向量数据并且人工标识所述就用户有关的疾病各参与方给出的信息的含义；步骤3，将所述词向量数据输入循环神经网络中以理解所述各参与方表达的含义；步骤4，对步骤2中所获得的所述词向量数据和所述人工标识进行二维训练，以便对后续输入的就用户有关的疾病各参与方给出的信息进行感情分类。还涉及一种利用知识图谱构建疾病诊断方法。构建疾病诊断方法。构建疾病诊断方法。

技术研发人员：李伟常德杰
受保护的技术使用者：北京妙医佳健康科技集团有限公司
技术研发日：2022.02.10
技术公布日：2022/3/8

专利

最新回复(0)