本发明实施例涉及数据处理,尤其涉及一种基于格兰杰因果的不均衡轨迹数据去匿名方法。
背景技术:
1、随着移动终端数字技术的不断发展,位置数据的收集和分析变得越来越普遍。为了保护用户的隐私,轨迹数据通常在收集后进行匿名化处理,以防止个人身份的泄露。
2、尽管现有的匿名化技术在一定程度上保护了用户隐私,但它们也存在一些局限性,比如会导致数据质量下降,影响数据分析的准确性和有效性等。目前,现存的轨迹数据去匿名方法仍存在一些缺陷,它们仅考虑了轨迹数据的时空特性,未考虑到数据中隐含的因果结构关系,且尚未针对多源轨迹数据不均衡问题提出具体可行的实施方案,导致方法的去匿名效果不够准确。
3、可见,亟需一种去匿名效果准确的基于格兰杰因果的不均衡轨迹数据去匿名方法。
技术实现思路
1、有鉴于此,本发明实施例提供一种基于格兰杰因果的不均衡轨迹数据去匿名方法,至少部分解决现有技术中存在去匿名效果精准度较差的问题。
2、本发明实施例提供了一种基于格兰杰因果的不均衡轨迹数据去匿名方法,包括:
3、步骤1,针对多源轨迹数据不均衡问题,对匿名和非匿名轨迹数据集合进行数据均衡化处理;
4、步骤2,将均衡化处理的轨迹数据集合输入到改进的双向长短期记忆模型中,分别得到匿名轨迹表征和非匿名轨迹表征;
5、步骤3,将非匿名轨迹表征输入因果学习模块,提取轨迹数据中存在的因果结构;
6、步骤4,将因果结构输入到用户id均衡预测模块,并在损失函数的优化下进行训练;
7、步骤5,将匿名轨迹表征输入到训练好的模型中,得到匿名轨迹的用户与轨迹链接结果,实现轨迹的去匿名化。
8、根据本发明实施例的一种具体实现方式,所述步骤1具体包括:
9、步骤1.1,计算匿名轨迹数据集合和非匿名轨迹数据集合的均方误差,分别记为和,其中,均方误差计算公式为:
10、
11、其中,指每个轨迹类别的数据在整个轨迹集合中的占比,为轨迹类别的均值,为轨迹类别数量;
12、步骤1.2,计算匿名轨迹数据集合和非匿名轨迹数据集合的差异,判断差异是否大于阈值,若是,则进行平衡聚类处理,其中,差异的计算公式为:;
13、步骤1.3,对匿名轨迹数据和非匿名轨迹数据分别进行聚类,将聚类结果表示为匿名轨迹数据聚类集合和非匿名轨迹数据聚类集合;
14、步骤1.4,对于每个匿名数据聚类和非匿名数据聚类,分别计算它们的均方误差和采样权重,其中,采样权重的计算公式为:
15、
16、步骤1.5,依据采样权重对聚类轨迹数据进行均衡化处理;
17、步骤1.6,针对均衡化处理后的数据集进行检查,计算新数据集合的值,保证其小于阈值,否则,重复步骤1.1至步骤1.5。
18、根据本发明实施例的一种具体实现方式,所述步骤2具体包括:
19、步骤2.1,将均衡化处理后的匿名轨迹数据集与非匿名轨迹数据集分别输入到加入类别均衡综合注意力机制的双向长短期记忆模型中,其中,在双向长短期记忆模型中,每个时间步的计算包括前向lstm层和后向lstm层的计算,后向lstm层的计算过程与前向lstm层的输入顺序相反,计算lstm层的遗忘门:
20、
21、其中,为sigmoid函数,和为可训练参数,是上一个时间步的隐藏状态,是当前时间步的输入;
22、步骤2.2,计算输入门:
23、
24、其中,和为可训练参数;
25、步骤2.3,结合遗忘门和输入门的结果更新单元状态:
26、
27、其中,是上一个时间步的单元状态,表示哈达玛积,表示tanh激活函数,和为可训练参数;
28、步骤2.4,计算输出门:
29、;
30、其中,和为可训练参数;
31、步骤2.5,结合单元状态和输出门的结果计算当前的隐藏状态:
32、;
33、步骤2.6,对于每个时间步t,将前向lstm层和后向lstm层的隐藏状态连接作为该时间步的最终隐藏状态:
34、
35、其中,表示前向隐藏状态,表示后向隐藏状态;
36、步骤2.7,在双向长短期记忆模型处理完所有时间步后,获取每个时间步的隐藏状态序列,并将最后一个时间步的隐藏状态输入到类别均衡综合注意力模块中,最终输出包含时空信息的轨迹表征。
37、根据本发明实施例的一种具体实现方式,所述步骤2.7具体包括:
38、步骤2.7.1,将最后一个时间步的隐藏状态分别输入到类别均衡时间注意力模块和类别均衡空间注意力模块中,首先计算时间注意力得分与空间注意力得分:
39、
40、
41、其中,表示时间步t的隐藏状态,表示空间点p的表示向量,、为权重矩阵,、为偏置向量;
42、步骤2.7.2,根据时间注意力得分与空间注意力得分计算类别均衡的注意力权重:
43、
44、
45、其中,、为类别i的占比权重,表示时间步的时间注意力得分,表示空间点的空间注意力得分,表示指数函数,为求和操作;
46、步骤2.7.3,根据注意力权重计算上下文向量:
47、
48、;
49、步骤2.7.4,综合时间和空间上下文向量,并计算得到最终的轨迹表征:
50、
51、
52、其中,是综合上下文向量,、是权重矩阵,表示时间上下文向量和空间上下文向量的拼接,、是偏置向量。
53、根据本发明实施例的一种具体实现方式,所述步骤3具体包括:
54、步骤3.1,使用格兰杰因果关系提取非匿名轨迹数据中潜在的因果结构,并得到初步的因果关系矩阵a;
55、步骤3.2,假设因果关系矩阵a是由最大滞后期为k的子因果结构组成,使用多层感知器和gumbel-softmax类别重参数化来估计轨迹表征中存在的因果结构,并得到因果权重矩阵w:
56、
57、
58、其中,表示k个滞后期为的局部子结构,为滞后期为j的子因果结构,为当前时间步t之前第k个滞后期的轨迹表征,为mlp层,为可训练的参数,为gumbel噪声项,为温度参数;
59、步骤3.3,对每个时间步t的轨迹表征,递归地重建格兰杰因果结构;
60、步骤3.4,根据因果关系矩阵a和因果权重矩阵w的最终结果生成一个有向的因果结果:
61、
62、其中,v为节点集合,表示轨迹表征,e为有向边集合,表示因果关系;
63、步骤3.5,递归重建过程中,通过最小化重建损失函数来优化因果结构,其中,所述重建损失函数的表达式为:
64、
65、其中,是基于kl散度的损失项,是正则化项,和是损失项的权重超参数,基于kl散度的损失项用于衡量两个概率分布之间的差异,其表达式为:
66、
67、其中,是真实轨迹数据的概率分布,是重建轨迹数据的概率分布;
68、正则化项用于控制模型复杂度,防止过拟合,其表达式为:
69、
70、其中,是模型的参数。
71、根据本发明实施例的一种具体实现方式,所述步骤3.1具体包括:
72、步骤3.1.1,构建两个回归模型,分别称为原始模型和扩展模型,其中原始模型不考虑,扩展模型考虑,原始模型和扩展模型的表达式为:
73、
74、
75、其中,和是回归系数,和为误差项;
76、步骤3.1.2,使用最小二乘法估计原始模型和扩展模型的回归参数和;
77、步骤3.1.3,计算原始模型和扩展模型的残差平方和差异,并用f统计量进行检验,其中,f统计量的计算公式为:
78、
79、其中,为样本大小,和分别为原始模型和扩展模型的残差平方和,其计算方法为:
80、
81、;
82、步骤3.1.4,根据f统计量查找对应自由度和下的临界值,若f大于,则认为格兰杰引起了,即记作一个因果结构,若f小于等于,则反之。
83、根据本发明实施例的一种具体实现方式,所述步骤3.2具体包括:
84、步骤3.2.1,以初步因果关系矩阵a为指导,利用mlp估计因果关系的概率分布;
85、步骤3.2.2,使用gumbel-softmax进行重参数化,得到因果关系的连续近似,并得到因果权重矩阵w。
86、根据本发明实施例的一种具体实现方式,所述步骤4具体包括:
87、步骤4.1,根据因果强度矩阵w和阈值,确定每个类别的节点在因果关系中所影响的节点数量;
88、步骤4.2,通过计算节点的不平衡率衡量不同类别节点影响力的分布情况,其中,节点不平衡率的表达式为:
89、
90、其中,是类别n的分布得分,c是类别总数,节点不平衡率的值在[0, 1]之间;
91、步骤4.3,将有向的因果结构输入到gnn模型中,通过节点和边的信息传递,学习因果结构中的复杂的因果和时空关系,在学习的过程中,通过更新公式随机选择一定比率的不平衡率最高的类别中的节点特征进行丢弃,其中,所述更新公式为:
92、;
93、其中,表示节点v在第层的表征,是节点v的邻居节点集合,是边(u,v)的特征;
94、步骤4.4,通过图神经网络的输出节点表征进行用户id预测,其表示方式为:
95、
96、其中,是用于分类的权重矩阵;
97、步骤4.5,训练过程中,通过最小化预测损失函数优化用户id预测,其中,所述预测损失函数的表达式为:
98、
99、其中,、、是损失项的权重超参数,是节点不平衡率,是基于交叉熵的多分类损失函数:
100、;
101、其中,yi是真实用户id 的one-hot 编码表示,是模型预测的样本属于用户i的概率,n 为用户总数。
102、根据本发明实施例的一种具体实现方式,所述步骤5具体包括:
103、步骤5.1,将匿名轨迹表征输入训练好的模型中的因果学习模块,得到匿名轨迹数据的因果结构;
104、步骤5.2,将因果结构输入图神经网络,得到匿名轨迹的用户与轨迹链接结果。
105、本发明实施例中的基于格兰杰因果的不均衡轨迹数据去匿名方案,包括:步骤1,针对多源轨迹数据不均衡问题,对匿名和非匿名轨迹数据集合进行数据均衡化处理;步骤2,将均衡化处理的轨迹数据集合输入到改进的双向长短期记忆模型中,分别得到匿名轨迹表征和非匿名轨迹表征;步骤3,将非匿名轨迹表征输入因果学习模块,提取轨迹数据中存在的因果结构;步骤4,将因果结构输入到用户id均衡预测模块,并在损失函数的优化下进行训练;步骤5,将匿名轨迹表征输入到训练好的模型中,得到匿名轨迹的用户与轨迹链接结果,实现轨迹的去匿名化。
106、本发明实施例的有益效果为:通过本发明的方案,针对轨迹数据存在的多源数据不均衡问题,提出一种多源不平衡数据处理方法,能够在一定程度上解决匿名轨迹数据不均衡问题,有效提升多源数据的利用效率,提高轨迹去匿名方法的准确性和有效性;利用了因果学习的方法,关注数据之间的关联性和因果关系,减少因数据泛化或噪声导致的误识别风险,提高用户与匿名轨迹链接的准确性;可以在快速、正确、较少资源要求的情况下,完成对轨迹数据的去匿名化,有效地提升了轨迹数据的利用率。
1.一种基于格兰杰因果的不均衡轨迹数据去匿名方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
3.根据权利要求2所述的方法,其特征在于,所述步骤2具体包括:
4.根据权利要求3所述的方法,其特征在于,所述步骤2.7具体包括:
5.根据权利要求4所述的方法,其特征在于,所述步骤3具体包括:
6.根据权利要求5所述的方法,其特征在于,所述步骤3.1具体包括:
7.根据权利要求6所述的方法,其特征在于,所述步骤3.2具体包括:
8.根据权利要求7所述的方法,其特征在于,所述步骤4具体包括:
9.根据权利要求8所述的方法,其特征在于,所述步骤5具体包括:
