本技术涉及数据加密,具体涉及一种面向企业办公系统的文件数据加密方法。
背景技术:
1、随着企业信息化的不断发展,大量敏感信息以电子文档形式存在,而电子文档易操作、易复制以及可重复使用等特点使得企业办公的电子文件数据易扩散,成为企业数据安全的重要隐患。为保障企业敏感信息的安全,除了采用在网络出入口部署防火墙等网络安全的手段以外,还有一些必要的物理隔离和规章制度的机制,以及基于加密技术的数据信息管理方法。
2、椭圆曲线加密算法因其高安全性的特点常用于数据加密领域,在企业文件数据加密过程中,常规方法采用单一的参数进行加密处理。然而,企业办公的文件数据信息多样,包含有公司政策、会议记录报告、项目计划、财务报表以及技术规范文档等,不同的文件具有不同程度的隐私重要性。若仅采用固定参数对企业文件进行加密,会降低对文件加密的安全性和加密效率。
技术实现思路
1、为了解决上述技术问题,本技术提供一种面向企业办公系统的文件数据加密方法,以解决现有的问题。
2、本技术的一种面向企业办公系统的文件数据加密方法采用如下技术方案:
3、本技术一个实施例提供了一种面向企业办公系统的文件数据加密方法,该方法包括以下步骤:
4、获取企业办公系统中每个办公文档的所有表格数据、所有图像数据、以及文本数据内所有非停用词及各自的语义向量;
5、根据每个办公文档的文本数据内各非停用词与其所在语句中其他各非停用词对应次序的差异,各非停用词与其所在语句中其他各非停用词的语义向量的相似度,以及各非停用词在对应文本数据内出现的频率,确定每个办公文档的文本数据内各非停用词的第一重要性指数;
6、对每个办公文档的文本数据内所有非停用词的第一重要性指数聚类,得到多个聚类簇,将含有最大第一重要性指数的聚类簇中所有第一重要性指数对应的非停用词,记为高敏感词;
7、基于每个办公文档的文本数据内各段落中任意两条语句在语义层面的相似度,确定每个办公文档的文本数据内各段落的语义相似度,并结合每个办公文档的文本数据内各段落中所有高敏感词在对应段落中所有非停用词中的占比,以及各段落到所有表格数据和所有图像数据的距离,确定每个办公文档的文本数据内各段落的第二重要性指数;
8、基于每个办公文档与其他办公文档的差异确定每个办公文档的差异程度,结合每个办公文档的文本数据内所有段落的第二重要性指数,确定每个办公文档的敏感指数;基于所述敏感指数确定各办公文档的有限域参数近似值,结合加密算法对各办公文档进行加密。
9、优选的,所述每个办公文档的文本数据内各非停用词的第一重要性指数的确定方法为:
10、基于每个办公文档的文本数据内各非停用词与其所在语句中其他各非停用词对应次序的差异,各非停用词与其所在语句中其他各非停用词的语义向量的相似度,以及各非停用词在对应文本数据内出现的频率,确定每个办公文档的文本数据内各非停用词的信息重要性;
11、每个办公文档的文本数据内各非停用词的第一重要性指数为每个办公文档的文本数据内各非停用词的信息重要性与词频-逆文档频率融合的结果。
12、优选的,所述每个办公文档的文本数据内各非停用词的信息重要性的表达式为:;式中,表示第x个办公文档的文本数据内第i个非停用词的信息重要性;表示第x个办公文档的文本数据内第i个非停用词与其所在语句中第j个非停用词对应次序的差异;表示第x个办公文档的文本数据内第i个非停用词与其所在语句中第j个非停用词的词频的和值;表示第x个办公文档的文本数据内第i个非停用词与其所在语句中第j个非停用词的语义向量的相似度;表示第x个办公文档的文本数据内第i个非停用词所在语句中所有非停用词的数量。
13、优选的,所述每个办公文档的文本数据内各段落的语义相似度的确定方法为:
14、将每个办公文档的文本数据内每条语句中所有非停用词的语义向量在各个维度上取均值,组成每条语句的句意向量;
15、每个办公文档的文本数据内各段落的语义相似度为每个办公文档的文本数据内各段落中任意两条语句的句意向量的累加和。
16、优选的,所述每个办公文档的文本数据内各段落的第二重要性指数的确定方法为:
17、每个办公文档的文本数据内各段落中所有高敏感词的数量与对应段落中所有非停用词的比值,记为每个办公文档的文本数据内各段落的高敏感词占比;
18、基于每个办公文档的文本数据内各段落到所有表格数据和所有图像数据的距离,确定每个办公文档的文本数据内各段落的第一距离;
19、基于所述高敏感词占比、所述语义相似度、所述第一距离,确定每个办公文档的文本数据内各段落的第二重要性指数。
20、优选的,所述每个办公文档的文本数据内各段落的第一距离的确定方法为:
21、获取每个办公文档的所有表格数据、所有图像数据及文本数据内所有段落的包围矩形框,每个办公文档的文本数据内各段落的第一距离为每个办公文档的文本数据内各段落的包围矩形框左上顶点到所有表格数据及所有图像数据的包围矩形框左上顶点的距离的累加和。
22、优选的,所述每个办公文档的文本数据内各段落的第二重要性指数的表达式为:;式中,、、、分别表示第x个办公文档的文本数据内第k个段落的第二重要性指数、高敏感词占比、语义相似度、第一距离。
23、优选的,所述每个办公文档的差异程度的确定方法为:
24、将每个办公文档作为指纹生成算法的输入,得到每个办公文档的指纹,每个办公文档的差异程度为每个办公文档的指纹与其他所有办公文档的指纹的差异取均值。
25、优选的,所述每个办公文档的敏感指数为每个办公文档的文本数据内所有段落的第二重要性指数的和值与差异程度的比值。
26、优选的,所述确定各办公文档的有限域参数近似值,结合加密算法对各办公文档进行加密,进一步包括:
27、每个办公文档的有限域参数近似值的表达式为:;式中,表示第x个办公文档的有限域参数近似值;表示第x个办公文档的敏感指数;表示以自然常数为底数的指数函数;、均为大于0的预设常数;
28、对待加密的办公文档的文本数据进行编码,将编码后的数据作为加密算法的输入,其中,将与有限域参数近似值最接近的素数作为对应办公文档加密时加密算法的有限域参数,输出加密后的办公文档。
29、本技术至少具有如下有益效果:
30、本技术根据每个办公文档的文本数据内各非停用词与其所在语句中其他各非停用词对应次序的差异,各非停用词与其所在语句中其他各非停用词的语义向量的相似度,以及各非停用词在对应文本数据内出现的频率,确定每个办公文档的文本数据内各非停用词的第一重要性指数,从而实现对办公文档的文本数据内所有非停用词的重要程度的划分。
31、本技术基于每个办公文档的文本数据内各段落中所有高敏感词在对应段落中所有非停用词中的占比,以及各段落中任意两条语句在语义层面的相似度,结合各段落到所有表格数据和所有图像数据的距离,确定每个办公文档的文本数据内各段落的第二重要性指数,从而进一步限定非停用词的重要程度;基于每个办公文档与其他办公文档的差异,结合每个办公文档的文本数据内所有段落的第二重要性指数,确定每个办公文档的敏感指数,以实现针对不同办公文档时加密算法的自适应加密功能。
32、本技术通过分析办公文档中不同子词的重要性程度,从而确定不同办公文档的加密程度,为不同办公文档分配自适应的有限域参数,提高了对不同办公文档加密的安全性和加密效率。
1.一种面向企业办公系统的文件数据加密方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的一种面向企业办公系统的文件数据加密方法,其特征在于,所述每个办公文档的文本数据内各非停用词的第一重要性指数的确定方法为:
3.如权利要求2所述的一种面向企业办公系统的文件数据加密方法,其特征在于,所述每个办公文档的文本数据内各非停用词的信息重要性的表达式为:;式中,表示第x个办公文档的文本数据内第i个非停用词的信息重要性;表示第x个办公文档的文本数据内第i个非停用词与其所在语句中第j个非停用词对应次序的差异;表示第x个办公文档的文本数据内第i个非停用词与其所在语句中第j个非停用词的词频的和值;表示第x个办公文档的文本数据内第i个非停用词与其所在语句中第j个非停用词的语义向量的相似度;表示第x个办公文档的文本数据内第i个非停用词所在语句中所有非停用词的数量。
4.如权利要求1所述的一种面向企业办公系统的文件数据加密方法,其特征在于,所述每个办公文档的文本数据内各段落的语义相似度的确定方法为:
5.如权利要求1所述的一种面向企业办公系统的文件数据加密方法,其特征在于,所述每个办公文档的文本数据内各段落的第二重要性指数的确定方法为:
6.如权利要求5所述的一种面向企业办公系统的文件数据加密方法,其特征在于,所述每个办公文档的文本数据内各段落的第一距离的确定方法为:
7.如权利要求5所述的一种面向企业办公系统的文件数据加密方法,其特征在于,所述每个办公文档的文本数据内各段落的第二重要性指数的表达式为:;式中,、、、分别表示第x个办公文档的文本数据内第k个段落的第二重要性指数、高敏感词占比、语义相似度、第一距离。
8.如权利要求1所述的一种面向企业办公系统的文件数据加密方法,其特征在于,所述每个办公文档的差异程度的确定方法为:
9.如权利要求1所述的一种面向企业办公系统的文件数据加密方法,其特征在于,所述每个办公文档的敏感指数为每个办公文档的文本数据内所有段落的第二重要性指数的和值与差异程度的比值。
10.如权利要求1所述的一种面向企业办公系统的文件数据加密方法,其特征在于,所述确定各办公文档的有限域参数近似值,结合加密算法对各办公文档进行加密,进一步包括: