一种面向结构化数据的动态脱敏方法

专利查询5天前  11


本发明属于数据脱敏的,具体涉及一种面向结构化数据的动态脱敏方法。


背景技术:

1、随着现代通讯科技和移动互联网设备的普及,个人敏感信息日益增多。科技的快速发展提高了人们的生活品质和工作效率,然而亦带来了个人信息泄露的风险。数据脱敏技术提供了一种革新的保护方法,可根据不同用户需求进行个性化保护,并提供额外的数据安全保障。

2、目前常见的敏感数据识别产品存在识别效率低下,识别准确率较低的问题,并且无法实现自动化识别。传统的敏感数据识别方法采用正则表达式来进行匹配,该方法用大量正则表达式逐个匹配文本,耗时长,识别效率低。并且数据脱敏方法很多是通过应用层进行处理,与系统代码耦合度较高。


技术实现思路

1、本发明的目的在于针对现有技术中的上述不足,提供一种面向结构化数据的动态脱敏方法,以解决现有技术中的敏感数据识别无法自动化,识别效率低,识别准确率低的问题。

2、为达到上述目的,本发明采取的技术方案是:

3、一种面向结构化数据的动态脱敏方法,其包括以下步骤:

4、s1、收集并获取用户数据;

5、s2、采用textcnn文本分类模型对数据进行识别分类,输出每个分类类别概率;

6、s3、基于不同类别概率,采用正则表达式匹配类别概率对应的数据,识别对应数据的类别;

7、s4、根据用户个性化需求,设定不同类别数据的脱敏算法;

8、s5、基于脱敏算法,采用结果集处理的方式,对识别出的敏感数据进行脱敏。

9、进一步的,s2中textcnn文本分类模型,包括:

10、嵌入层,采用sem2vec方法,将输入的数据转换为词向量,并基于多个词向量组成句子矩阵;

11、卷积层,利用多个不同尺寸卷积核提取句子矩阵中的关键信息,获取不同抽象层次的语义信息,并输出多种数据;

12、池化层,对多种数据进行池化处理,并采用torch.cat函数将三种数据连接到一起;

13、全连接层,将连接在一起的数据进行全连接处理,并采用softmax激活函数对全连接后的数据进行归一化处理,得到概率分布向量,即得到每个分类类别概率。

14、进一步的,采用sem2vec方法生成具有语义约束的嵌入向量,该语义约束结合多个词典和同义词表的语义库来生成词向量。

15、进一步的,s3中将类别概率值进行排序,采用正则表达式匹配类别概率值排在前三对应类别数据,以识别对应数据的类别。

16、进一步的,s4中根据用户个性化需求包括:对敏感词进行遮盖、加密或替换;

17、设定不同类别数据的脱敏算法包括:摘要加密脱敏算法、对称密钥加密脱敏算法、国家商用密码脱敏算法、保形加密脱敏算法或者保序加密脱敏算法。

18、进一步的,对称密钥加密脱敏算法包括aes、des、3des、rc4、替换加密和重排加密中的任何一种。

19、进一步的,s5具体包括:

20、在进行数据查询时,客户端将原数据请求直接发向数据库服务端,数据库服务端返回查询结果时,数据库代理对数据库服务端返回的报文即返回的查询结果进行拦截、并按照s2~s4中的算法对报文进行脱敏处理,然后将脱敏后的报文返送至客户端。

21、本发明提供的面向结构化数据的动态脱敏方法,具有以下有益效果:

22、1、本发明对结构化数据进行脱敏,并且实现自动化和用户定制化;使用textcnn文本分类模型进行敏感数据识别,提高了敏感数据识别的效率和准确性。

23、2、文发明在数据预处理阶段使用sem2vec方法,比传统的词向量嵌入方法更稳定,效率更高。

24、3、本发明结合使用textcnn文本分类模型和正则表达式,相对传统单一的正则表达式的使用,可极大的减少正则表达式的匹配耗时,减少算力,同时也能提高识别效率,且提高了敏感数据识别的准确性。

25、4、本发明的数据脱敏采用数据库中间件的形式进行处理,具体采用基于结果集处理的方式,与系统代码耦合度较低,方便处理改进。



技术特征:

1.一种面向结构化数据的动态脱敏方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的面向结构化数据的动态脱敏方法,其特征在于,所述s2中textcnn文本分类模型,包括:

3.根据权利要求2所述的面向结构化数据的动态脱敏方法,其特征在于:在嵌入层中,采用sem2vec方法生成具有语义约束的嵌入向量,该语义约束结合多个词典和同义词表的语义库来生成词向量。

4.根据权利要求1所述的面向结构化数据的动态脱敏方法,其特征在于,所述s3中将类别概率值进行排序,采用正则表达式匹配类别概率值排在前三对应类别数据,以识别对应数据的类别。

5.根据权利要求1所述的面向结构化数据的动态脱敏方法,其特征在于,所述s4中根据用户个性化需求包括:对敏感词进行遮盖、加密或替换;

6.根据权利要求5所述的面向结构化数据的动态脱敏方法,其特征在于,所述对称密钥加密脱敏算法包括aes、des、3des、rc4、替换加密和重排加密中的任何一种。

7.根据权利要求1所述的面向结构化数据的动态脱敏方法,其特征在于,所述s5具体包括:


技术总结
本发明公开了一种面向结构化数据的动态脱敏方法,包括:收集并获取用户数据;采用TextCNN文本分类模型对数据进行识别分类,输出每个分类类别概率;基于不同类别概率,采用正则表达式匹配类别概率对应的数据,识别对应数据的类别;根据用户个性化需求,设定不同类别数据的脱敏算法;基于脱敏算法,采用结果集处理的方式,对识别出的敏感数据进行脱敏。本发明结合使用TextCNN文本分类模型和正则表达式,相对传统单一的正则表达式的使用,可极大的减少正则表达式的匹配耗时,减少算力,同时也能提高识别效率,且提高了敏感数据识别的准确性。

技术研发人员:曹明生,王竣,张宇,陈虹良,丁桥隆,及宇轩,黄丹
受保护的技术使用者:电子科技大学
技术研发日:
技术公布日:2024/12/5

最新回复(0)