一种面向结构化数据的动态脱敏方法

本发明属于数据脱敏的，具体涉及一种面向结构化数据的动态脱敏方法。

背景技术：

1、随着现代通讯科技和移动互联网设备的普及，个人敏感信息日益增多。科技的快速发展提高了人们的生活品质和工作效率，然而亦带来了个人信息泄露的风险。数据脱敏技术提供了一种革新的保护方法，可根据不同用户需求进行个性化保护，并提供额外的数据安全保障。

2、目前常见的敏感数据识别产品存在识别效率低下，识别准确率较低的问题，并且无法实现自动化识别。传统的敏感数据识别方法采用正则表达式来进行匹配，该方法用大量正则表达式逐个匹配文本，耗时长，识别效率低。并且数据脱敏方法很多是通过应用层进行处理，与系统代码耦合度较高。

技术实现思路

1、本发明的目的在于针对现有技术中的上述不足，提供一种面向结构化数据的动态脱敏方法，以解决现有技术中的敏感数据识别无法自动化，识别效率低，识别准确率低的问题。

2、为达到上述目的，本发明采取的技术方案是：

3、一种面向结构化数据的动态脱敏方法，其包括以下步骤：

4、s1、收集并获取用户数据；

5、s2、采用textcnn文本分类模型对数据进行识别分类，输出每个分类类别概率；

6、s3、基于不同类别概率，采用正则表达式匹配类别概率对应的数据，识别对应数据的类别；

7、s4、根据用户个性化需求，设定不同类别数据的脱敏算法；

8、s5、基于脱敏算法，采用结果集处理的方式，对识别出的敏感数据进行脱敏。

9、进一步的，s2中textcnn文本分类模型，包括：

10、嵌入层，采用sem2vec方法，将输入的数据转换为词向量，并基于多个词向量组成句子矩阵；

11、卷积层，利用多个不同尺寸卷积核提取句子矩阵中的关键信息，获取不同抽象层次的语义信息，并输出多种数据；

12、池化层，对多种数据进行池化处理，并采用torch.cat函数将三种数据连接到一起；

13、全连接层，将连接在一起的数据进行全连接处理，并采用softmax激活函数对全连接后的数据进行归一化处理，得到概率分布向量，即得到每个分类类别概率。

14、进一步的，采用sem2vec方法生成具有语义约束的嵌入向量，该语义约束结合多个词典和同义词表的语义库来生成词向量。

15、进一步的，s3中将类别概率值进行排序，采用正则表达式匹配类别概率值排在前三对应类别数据，以识别对应数据的类别。

16、进一步的，s4中根据用户个性化需求包括：对敏感词进行遮盖、加密或替换；

17、设定不同类别数据的脱敏算法包括：摘要加密脱敏算法、对称密钥加密脱敏算法、国家商用密码脱敏算法、保形加密脱敏算法或者保序加密脱敏算法。

18、进一步的，对称密钥加密脱敏算法包括aes、des、3des、rc4、替换加密和重排加密中的任何一种。

19、进一步的，s5具体包括：

20、在进行数据查询时，客户端将原数据请求直接发向数据库服务端，数据库服务端返回查询结果时，数据库代理对数据库服务端返回的报文即返回的查询结果进行拦截、并按照s2～s4中的算法对报文进行脱敏处理，然后将脱敏后的报文返送至客户端。

21、本发明提供的面向结构化数据的动态脱敏方法，具有以下有益效果：

22、1、本发明对结构化数据进行脱敏，并且实现自动化和用户定制化；使用textcnn文本分类模型进行敏感数据识别，提高了敏感数据识别的效率和准确性。

23、2、文发明在数据预处理阶段使用sem2vec方法，比传统的词向量嵌入方法更稳定，效率更高。

24、3、本发明结合使用textcnn文本分类模型和正则表达式，相对传统单一的正则表达式的使用，可极大的减少正则表达式的匹配耗时，减少算力，同时也能提高识别效率，且提高了敏感数据识别的准确性。

25、4、本发明的数据脱敏采用数据库中间件的形式进行处理，具体采用基于结果集处理的方式，与系统代码耦合度较低，方便处理改进。

技术特征：

1.一种面向结构化数据的动态脱敏方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向结构化数据的动态脱敏方法，其特征在于，所述s2中textcnn文本分类模型，包括：

3.根据权利要求2所述的面向结构化数据的动态脱敏方法，其特征在于：在嵌入层中，采用sem2vec方法生成具有语义约束的嵌入向量，该语义约束结合多个词典和同义词表的语义库来生成词向量。

4.根据权利要求1所述的面向结构化数据的动态脱敏方法，其特征在于，所述s3中将类别概率值进行排序，采用正则表达式匹配类别概率值排在前三对应类别数据，以识别对应数据的类别。

5.根据权利要求1所述的面向结构化数据的动态脱敏方法，其特征在于，所述s4中根据用户个性化需求包括：对敏感词进行遮盖、加密或替换；

6.根据权利要求5所述的面向结构化数据的动态脱敏方法，其特征在于，所述对称密钥加密脱敏算法包括aes、des、3des、rc4、替换加密和重排加密中的任何一种。

7.根据权利要求1所述的面向结构化数据的动态脱敏方法，其特征在于，所述s5具体包括：

技术总结
本发明公开了一种面向结构化数据的动态脱敏方法，包括：收集并获取用户数据；采用TextCNN文本分类模型对数据进行识别分类，输出每个分类类别概率；基于不同类别概率，采用正则表达式匹配类别概率对应的数据，识别对应数据的类别；根据用户个性化需求，设定不同类别数据的脱敏算法；基于脱敏算法，采用结果集处理的方式，对识别出的敏感数据进行脱敏。本发明结合使用TextCNN文本分类模型和正则表达式，相对传统单一的正则表达式的使用，可极大的减少正则表达式的匹配耗时，减少算力，同时也能提高识别效率，且提高了敏感数据识别的准确性。

技术研发人员：曹明生,王竣,张宇,陈虹良,丁桥隆,及宇轩,黄丹
受保护的技术使用者：电子科技大学
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)