1.本发明属于区块链领域,具体涉及一种区块链中信息溯源与追踪的方法及系统,特别是在预言机算法上。
背景技术:
2.互联网时代,人们除去利用传统的纸质媒体外,也对各类社交媒体的使用愈发频繁,例如:facebook、微博、抖音、微信公众号、twitter等,此类社交媒体甚至成为群众的主要获取信息渠道。基于广大的用户集群,以及新媒体大数据的蓬勃起始,各行各业对新兴社会事件的趋势分析、行情研究、类别归纳、内容挖掘,对舆情的研判等需求日益增加。而当今我国正处在高质量的经济起始周期,国家对新的技术突破十分重视,而国际局势也处于较为波动的时期,世界范围内自然灾害,流性疾病、金融危机等事件频繁发生。因此通过现有技术手段对新闻事件进行一个完整的溯源及追踪过程显得十分必要。
3.传统的分析方法着眼于互联网话题检测的层面。主体思路是将网络上多种渠道的信息进行汇总,之后通过选定目标类话题来实现信息的话题检测、发现和追踪。这个过程中通常先选取若干篇话题相同或显性相似或隐性相似的先验报道,用来训练话题识别模型,之后使用此模型测试渠道汇总信息,进而获取话题传播趋势,实现话题追踪的目的。传统方法依赖于给定单一语料的相关性,技术上则使用传统的自然语言处理方法,如simhash算法或tdt(topic detection and tracking)算法。因此传统方法无法快速识别多话题类内容,并且由于互联网信息存在内容不真实性和时间不准确性,所以在话题聚类时也会产生噪声,存在聚类依赖现象。
4.近些年来区块链技术广泛应用到了社交媒体之中,由于区块链的可追溯不可篡改的特性,使得新闻传播内容的真实性大大提高,也极大地促进了新闻管控的便利性。有利于人员对新闻内容留言等信息进行跟踪、把控和分析。同时预言机的完善也使得信息上链的过程具备了更加的严谨性和时效性。由于链上交易记录安全透明可查询,并且环境相对孤立,因此确保了传统互联网信息上链过程的真实性。但由于现有区块链的低效率以及低交易量的局限,也存在区块链应用领域不够广泛,很难对海量新闻进行完整的记录、溯源与追踪的缺点。
技术实现要素:
5.为了解决现有技术中的上述问题,本发明提出了一种区块链中信息溯源与追踪方法及系统,提升了算法的效率,降低了时间复杂度。
6.本发明的一方面,提出一种区块链中信息溯源与追踪方法,包括以下步骤:步骤s1,从多个不同的新闻传播通道中采集新闻数据,通过预言机对信息完成筛选后将数据存入区块链数据湖中;步骤s2,对上述区块链数据湖中的新闻数据进行话题聚类,根据不同话题生成相应新闻集合,选取待追踪事件对应的新闻集合,根据时间溯源待追踪事件的起始发布时间;
步骤s3,以上述起始发布时间为起点,根据区块链数据湖中的新闻数据绘制待追踪事件在单位时间内的信息量随时间变化的曲线;并在曲线上进行等时间间隔采样,绘制出平滑后的趋势曲线;步骤s4,统计出趋势曲线上的极大值点的个数,并计算相应变化阶段的个数;步骤s5,在该趋势曲线上,将每个变化阶段等间隔地划分为预设数量的时间段,统计每个时间段中产生的信息量,并计算其相应极大值点和极小值点;步骤s6,在所述趋势曲线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。
7.所述区块链数据湖包括:一个汇总mysql数据库、各新闻传播通道cache数据库以及关键节点信息的的区块链数据库;在一些优选实施例中,步骤s1的步骤具体包含:步骤s11,使用预言机采集并检测相应新闻的真实性,并将成功上链的新闻存入汇总mysql数据库中;步骤s12,将mysql数据库中的信息,不同的采集渠道分别存入对应的cache数据库中,并将全部新闻的核心节点数据存入区块链数据库;在一些优选实施例中,步骤s2中“对上述区块链数据湖中的新闻数据进行话题聚类”,包括:对所述汇总mysql数据库中的话题进行聚类,及对某通道中cache数据库中的话题进行聚类。
8.在一些优选实施例中,步骤s2的步骤具体包括:步骤s21,从mysql数据库中选取第一条新闻数据,通过聚类找到该数据库中与此数据具有相同话题的新闻,作为一个集合;步骤s22,从传播通道cache数据库中剩余新闻数据中选取第一条新闻数据,通过聚类找到与该新闻数据具有相同话题的新闻数据,作为另一个集合;步骤s23,重复执行,直到无法聚类出新的集合,通过极值点去重的方式删除不需要的集合;步骤s24,选择待追踪事件对应的新闻集合,并查找出其中发布时间最早的新闻数据;将该新闻数据的发布时间,作为所述待追踪事件的起始发布时间。
9.在一些优选实施例中,步骤s5的步骤具体包括:步骤s51,在此趋势曲线上,分别将每个变化阶段等间隔地划分为个时间段,并计算出每个时间段中产生的信息量;步骤s52,将满足下式的值对应时间段的中间值在上述趋势曲线上的点作为极大值点:步骤s53,将满足下式的值对应时间段的中间值在该趋势曲线上的点作为极小值点:
其中,为第个变化阶段中第个时间段所产生的信息量,,;为事件变化阶段的个数;为预设数量;为预设的第一阈值;为预设的第二阈值。
10.在一些优选实施例中,步骤s6具体包括:步骤s61,计算出此趋势曲线上第一个极大值与预设的信息量百分比的乘积,得到发生阶段分割点的纵坐标;将所述起始发布时间到所述发生阶段分割点之间的时间段定义为事件发生阶段;步骤s62,计算出该趋势曲线上最后一个极大值与预设的信息量百分比的乘积,得到消失阶段分割点的纵坐标;将消失阶段分割点到趋势曲线结束点之间对应的时间段定义为事件消失阶段;步骤s63,将该趋势曲线上位于发生阶段分割点与消失阶段分割点之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段;所述中间阶段的组数与极大值点的个数相同,每组中间阶段包括:一个起始阶段、一个高潮阶段、一个回落阶段;步骤s63的步骤具体包括:步骤s631,针对第一个极大值,分别计算出该极大值与预设的信息量百分比、、的乘积,得到三个分割点、、的纵坐标;在趋势曲线上找到位于第一个极大值点前方的分割点,找到位于第一个极大值点后方的分割点、,进而将所述发生阶段分割点与分割点之间对应的时间段定义为第一个起始阶段,将分割点与之间对应的时间段定义为第一个高潮阶段,将分割点与之间对应的时间段定义为第一个回落阶段;步骤s632,针对第二个极大值,分别计算出该极大值与预设的信息量百分比、、的乘积,得到三个分割点、、的纵坐标;在该趋势曲线上找到位于第二个极大值点前方的分割点,找到位于第二个极大值点后方的分割点、,进而将分割点与分割点之间对应的时间段定义为第二个起始阶段,将分割点与之间对应的时间段定义为第二个高潮阶段,将分割点与之间对应的时间段定义为第二个回落阶段;步骤s633,依次类推,直到定义完最后一个起始阶段、最后一个高潮阶段和最后一个回落阶段。
11.此方法还包括:分别获取各个变化阶段的起止时刻对应的信息,作为关键信息。
[0012]“根据所述极大值点的个数计算出变化阶段的个数”具体为:根据下式计算变化阶段的个数:其中,为变化阶段的个数,为所述极大值点的个数。
[0013]
在一些优选实施例中,步骤“求出所述趋势曲线上的极大值点的个数,进而计算出
变化阶段的个数”之前,还包括:若所述趋势曲线上的极值点个数超过预设的极值点个数阈值,则利用dbscan聚类算法将过密的极值点进行合并。
[0014]
本发明的另一方面,提出一种区块链中信息溯源与追踪的系统,所述系统包括:预言机模块、数据湖模块、算法分析模块、数据计算模块、追踪模块、溯源模块;所述预言机模块为:从多个不同的新闻媒体通道中采集新闻并根据新闻的内容时间准确性将数据筛选并存入区块链数据湖中;所述数据湖模块为:汇总mysql数据库中,传播通道cache数据库以及区块链数据库;所述算法分析模块为:对汇总mysql数据库中的相应新闻数据进行话题聚类,根据话题类型生成集合,并选择待目标事件对应的集合,统计出目标事件的起始发布时间;对传播通道cache数据库中的细分新闻事件重复进行相似性分析,选取第一条新闻数据,通过聚类找到与该新闻数据具有相同话题的新闻数据,作为另一个集合;并将重要节点数据存入区块链数据库中;所述数据计算配置为:统计该趋势曲线上的极大值点的个数,并计算出变化阶段的个数;同时分别将每个变化阶段等间隔地划分为预设数量的时间段,计算对应时间段中产生的信息量,进而计算出极大值点和极小值点;所述追踪模块配置为:以该事件起始发布时间为起点,根据区块链数据湖中的新闻数据绘制此事件在单位时间内的信息量随时间变化的曲线;在对应曲线上进行等时间间隔采样,绘制出平滑后的趋势曲线;所述溯源模块配置为:在该趋势曲线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。
[0015]
与最接近的现有技术相比,本发明至少具有如下有益效果:本发明在数据采集中引入了预言机,使得新闻数据可以在过滤后上链,降低了区块链的运行压力,并提高了新闻数据的真实性;在信息存储过程中,使用了区块链数据湖,使得算法可以对话题数据高效分析处理,提高了系统运行效率;在信息溯源的过程中,结合已有的simhash算法和tdt算法,创造了独特的quickdt算法,简化了话题的建模工作,降低了时间复杂度,极大地提升了结果的准确性;在信息追踪上,本方法通过预先绘制事件起始态势曲线,再对曲线进行等间隔采样,得到相对平滑的趋势曲线,利用dbscan聚类算法处理曲线震荡过激、极值点过密的情况,并基于趋势曲线进行信息追踪。该方法降低了传统话题追踪方法的阈值依赖和形状依赖的问题。
附图说明
[0016]
图1是本发明中quickdt算法的算法结构图;图2是本发明的一种区块链中信息溯源与追踪的方法的步骤流程图;图3是本发明中信息溯源的趋势曲线图;图4是本发明的智能合约数据湖的结构示意图;图5是本发明实施例中网络游戏整改事件的趋势曲线图;图6是本发明的一种区块链中信息溯源与追踪系统的系统架构图;
具体实施案例下面参照附图来描述本发明的优选实施例。本领域技术人员应当理解的是,这些实施例仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
[0017]
本发明中所述的“信息溯源”、“追踪”,是指追溯事件在多个通道上传播之后的首发信息;“新闻传播通道”包括微信公众号、抖音、门户网站、微博等通道。信息追踪,具体来讲是研究事件发生、话题形成后有关该话题的新闻报道的一系列演化,通常包括话题发生、起始、高潮、回落、消失五个基本阶段。不同话题趋势曲线图不同,有的话题在几天内经历了这几个阶段之后便销声匿迹,有的话中间可能会多次出现二次高潮的情况。
[0018]
在信息溯源的过程中我们结合已有的simhash算法和tdt算法,创造了独特的quickdt算法,简化了话题的建模工作,降低了时间复杂度,极大地提升了结果的准确性。在信息追踪上,本方法通过预先绘制事件起始态势曲线,再对曲线进行等间隔采样,得到相对平滑的趋势曲线,利用dbscan聚类算法处理曲线震荡过激、极值点过密的情况,并基于趋势曲线进行信息追踪。该方法降低了传统话题追踪方法的阈值依赖和形状依赖的问题。
[0019]
图1是本发明的溯源方法中进行话题分类的示意图。如图1所示,每个图形分别代表一篇新闻报道,即一条新闻数据;如果两个图形的类别相同,代表这两篇新闻的话题相同。每次默认选第一篇新闻,通过聚类找到与该新闻具有相同话题的其他新闻,在图1中相当于把具有相同类别的图形放到一起组成一个集合。然后在剩下的图形中再选取第一个类别进行聚类,不断重复此过程,直到无法聚类出新的方框集合为止,再通过极值点去重的方式删除不需要的集合。采取这种方法避免了传统tdt的低效率的劣势,提高了话题溯源的准确性。图2是本发明的一种区块链中信息溯源与追踪方法实施例的主要步骤示意图。如图2所示,本实施例的步骤流程图:首先,从多个不同的新闻传播通道中采集新闻数据,使用预言机采集并检测相应新闻的真实性,并将成功上链的新闻存入汇总mysql数据库中,不同的采集渠道分别存入对应的cache数据库中,并将全部新闻的核心节点数据存入区块链数据库;然后,对上述区块链数据湖中的新闻数据进行话题聚类,根据不同话题生成相应新闻集合,选取待追踪事件对应的新闻集合,根据时间溯源待追踪事件的起始发布时间;根据以上述起始发布时间为起点,根据区块链数据湖中的新闻数据绘制待追踪事件在单位时间内的信息量随时间变化的曲线;并在曲线上进行等时间间隔采样,绘制出平滑后的趋势曲线;具体为:首先统计事件发生后每个小时发布的信息量,然后根据绘制出信息量随小时数变化的曲线,再进行等间隔采样,从而绘制出较为平滑的趋势曲线。这里采样周期,单位为分钟。
[0020]
最后,统计出趋势曲线上的极大值点的个数,并计算相应变化阶段的个数;在该趋势曲线上,将每个变化阶段等间隔地划分为预设数量的时间段,统计每个时间段中产生的信息量,并计算其相应极大值点和极小值点;在所述趋势曲线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。
[0021]
上述步骤具体包含,计算出此趋势曲线上第一个极大值与预设的信息量百分比的乘积,得到发生阶段分割点的纵坐标;将所述起始发布时间到所述发生阶段分割点之间的时间段定义为事件发生阶段;计算出该趋势曲线上最后一个极大值与预设的信息量
百分比的乘积,得到消失阶段分割点的纵坐标;将消失阶段分割点到趋势曲线结束点之间对应的时间段定义为事件消失阶段;在此通过计算取m为0.4,取l为0.6同时将该趋势曲线上位于发生阶段分割点与消失阶段分割点之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段;针对第一个极大值,分别计算出该极大值与预设的信息量百分比、、的乘积,得到三个分割点、、的纵坐标;在趋势曲线上找到位于第一个极大值点前方的分割点,找到位于第一个极大值点后方的分割点、,进而将所述发生阶段分割点与分割点之间对应的时间段定义为第一个起始阶段,将分割点与之间对应的时间段定义为第一个高潮阶段,将分割点与之间对应的时间段定义为第一个回落阶段;针对第二个极大值,分别计算出该极大值与预设的信息量百分比、、的乘积,得到三个分割点、、的纵坐标;在该趋势曲线上找到位于第二个极大值点前方的分割点,找到位于第二个极大值点后方的分割点、,进而将分割点与分割点之间对应的时间段定义为第二个起始阶段,将分割点与之间对应的时间段定义为第二个高潮阶段,将分割点与之间对应的时间段定义为第二个回落阶段;在此r取值为0.8,s取值为0.9;依次类推,直到定义完最后一个起始阶段、最后一个高潮阶段和最后一个回落阶段。
[0022]
图3是本发明的一个趋势曲线及变化阶段划分方法的示意图。如图3所示,该趋势曲线有3个极大值点,按照上述变化阶段划分方法,我们首先找到了事件发生阶段分割点和事件消失阶段分割点,然后在每个极大值点的前后又可以找到一组分割点,分别为、、,、、,、、;可以看出,最后一个极大值点后方的分割点,正好与消失阶段分割点重合。
[0023]
图4是本发明的智能合约数据湖的系统架构图,如图可知,该系统由预言机,汇总区块链数据库,新闻通道cache数据库以及区块链数据库构成。
[0024]
图5是网络游戏整改事件的趋势曲线与变化阶段划分示意图。如图5所示,对该事件溯源后发现第一条信息为:2021年8月7日在“新浪微博”上发布的“国家新闻出版署下发通知进一步严格管理切实防止未成年人沉迷网络游戏”,本例中,待追踪事件为“网络游戏整改”, 2017年8月7日为“起始发布时间”。
[0025]
在绘制好的趋势曲线上找到一个极大值点,因此求得变化阶段个数为5,并根据上面所讲的划分方法将事件从发生到结束的整个过程划分为图5中所示的5个阶段:发生、起始、高潮、回落、二次起始、二次高潮、二次回落、消失。
[0026]
在各个阶段的分割点附近,我们找到了如下几条关键信息:(1)8月7日在“新浪微博”发布的“国家新闻出版署下发通知进一步严格管理切实防止未成年人沉迷网络游戏”;(2)8月11日在“新浪新闻”上发布的“将对游戏企业逐一排查推动防沉迷工作常态化机制化”;(3)8月15日在“网易新闻”发布的“落实国家举措,率先升级游戏防沉迷系统,oppo这次又走在行业前头”;(4)8月19日13:03在“新浪财经”发布的“腾讯控股净利连续两季下滑 市
值蒸发2.6万亿”;(5)8月21日早上
ꢀ“
网易号”发布的“游戏防沉迷政策上线!绿厂率先响应升级,凭何让家长直呼太省心”;(6)8月24日
ꢀ“
中手游官网”发布的“回应网络游戏新规:确保旗下游戏均按版署最新政策设置实名认证和防沉迷系统”;(7)“创梦天地官网”8月27日发布的“在线运营游戏已全面接入网络游戏防沉迷实名认证系统”;(8)8月31日在
ꢀ“
王者荣耀官网”发布的“将在游戏中限制未成年用户的游戏时间、游戏充值消费,并暂时关闭单机模式玩法”本发明还提出了一种区块链中信息溯源与追踪的系统的实施例,下面具体说明。
[0027]
图6是本发明的一种区块链中信息溯源与追踪的系统实施例的构成示意图。如图6所示,本实施例的区块链中信息溯源与追踪的系统包括:预言机模块,数据湖模块,算法分析模块,数据计算模块,追踪模块和溯源模块;本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤、模块、单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0028]
至此,已经结合附图所示的优选实施例描述了本发明的技术方案。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
技术特征:
1.一种区块链中信息溯源与追踪的方法,其特征在于,包括以下步骤:步骤s1,从多个不同的新闻传播通道中采集新闻数据,通过预言机对信息完成筛选后将数据存入区块链数据湖中;步骤s2,对上述区块链数据湖中的新闻数据进行话题聚类,根据不同话题生成相应新闻集合,选取待追踪事件对应的新闻集合,根据时间溯源待追踪事件的起始发布时间;步骤s3,以上述起始发布时间为起点,根据区块链数据湖中的新闻数据绘制待追踪事件在单位时间内的信息量随时间变化的曲线;并在曲线上进行等时间间隔采样,绘制出平滑后的趋势曲线;步骤s4,统计出趋势曲线上的极大值点的个数,并计算相应变化阶段的个数;步骤s5,在该趋势曲线上,将每个变化阶段等间隔地划分为预设数量的时间段,统计每个时间段中产生的信息量,并计算其相应极大值点和极小值点;步骤s6,在所述趋势曲线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。2.根据权利要求1所述的一种区块链中信息溯源与追踪的方法,其特征在于所述区块链数据湖包括:一个汇总mysql数据库、各新闻传播通道cache数据库以及关键节点信息的的区块链数据库;在一些优选实施例中,步骤s1具体包含:步骤s11,使用预言机采集并检测相应新闻的真实性,并将成功上链的新闻存入汇总mysql数据库中;步骤s12,将mysql数据库中的信息,不同的采集渠道分别存入对应的cache数据库中,并将全部新闻的核心节点数据存入区块链数据库。3.根据权利要求1所述的一种区块链中信息溯源与追踪的方法,其特征在于,步骤s2具体包括:步骤s21,从mysql数据库中选取第一条新闻数据,通过聚类找到该数据库中与此数据具有相同话题的新闻,作为一个集合;步骤s22,从传播通道cache数据库中剩余新闻数据中选取第一条新闻数据,通过聚类找到与该新闻数据具有相同话题的新闻数据,作为另一个集合;步骤s23,重复执行,直到无法聚类出新的集合,通过极值点去重的方式删除不需要的集合;步骤s24,选择待追踪事件对应的新闻集合,并查找出其中发布时间最早的新闻数据;将该新闻数据的发布时间,作为所述待追踪事件的起始发布时间。4.根据权利要求1所述的一种区块链中信息溯源与追踪的方法,其特征在于,步骤s5具体包括:步骤s51,在此趋势曲线上,分别将每个变化阶段等间隔地划分为个时间段,并计算出每个时间段中产生的信息量;步骤s52,将满足下式的值对应时间段的中间值在上述趋势曲线上的点作为极大值点:
ꢀ
步骤s53,将满足下式的 值对应时间段的中间值在该趋势曲线上的点作为极小值点:其中,为第个变化阶段中第个时间段所产生的信息量,,;为事件变化阶段的个数;为预设数量;为预设的第一阈值;为预设的第二阈值。5.根据权利要求1所述的一种区块链中信息溯源与追踪的方法,其特征在于,步骤s6具体包括:步骤s61,计算出此趋势曲线上第一个极大值与预设的信息量百分比的乘积,得到发生阶段分割点的纵坐标;将所述起始发布时间到所述发生阶段分割点之间的时间段定义为事件发生阶段;步骤s62,计算出该趋势曲线上最后一个极大值与预设的信息量百分比的乘积,得到消失阶段分割点的纵坐标;将消失阶段分割点到趋势曲线结束点之间对应的时间段定义为事件消失阶段;步骤s63,将该趋势曲线上位于发生阶段分割点与消失阶段分割点之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段;所述中间阶段的组数与极大值点的个数相同,每组中间阶段包括:一个起始阶段、一个高潮阶段、一个回落阶段;其中,步骤s63的步骤具体包括:步骤s631,针对第一个极大值,分别计算出该极大值与预设的信息量百分比、、的乘积,得到三个分割点、、的纵坐标;在趋势曲线上找到位于第一个极大值点前方的分割点,找到位于第一个极大值点后方的分割点、,进而将所述发生阶段分割点与分割点之间对应的时间段定义为第一个起始阶段,将分割点与之间对应的时间段定义为第一个高潮阶段,将分割点与之间对应的时间段定义为第一个回落阶段;步骤s632,针对第二个极大值,分别计算出该极大值与预设的信息量百分比、、的乘积,得到三个分割点、、的纵坐标;在该趋势曲线上找到位于第二个极大值点前方的分割点,找到位于第二个极大值点后方的分割点、,进而将分割点与分割点之间对应的时间段定义为第二个起始阶段,将分割点与之间对应的时间段定义为第二个高潮阶段,将分割点与之间对应的时间段定义为第二个回落阶段;步骤s633,依次类推,直到定义完最后一个起始阶段、最后一个高潮阶段和最后一个回落阶段。
6.根据权利要求1-5中任一项所述的一种区块链中信息溯源与追踪方法,其特征在于:分别获取各个变化阶段的起止时刻对应的信息,作为关键信息。7.根据权利要求6所述的一种区块链中信息溯源与追踪的方法,其特征在于,“根据所述极大值点的个数计算出变化阶段的个数”具体为:根据下式计算变化阶段的个数:其中,为变化阶段的个数,为所述极大值点的个数。8.根据权利要求1所述的一种区块链中信息溯源与追踪方法,其特征在于,步骤“求出所述趋势曲线上的极大值点的个数,进而计算出变化阶段的个数”之前,还包括:若所述趋势曲线上的极值点个数超过预设的极值点个数阈值,则利用dbscan聚类算法将过密的极值点进行合并。9.一种区块链中信息溯源与追踪系统,其特征在于,所述系统包括:预言机模块、数据湖模块、算法分析模块、数据计算模块、追踪模块、溯源模块;所述预言机模块为:从多个不同的新闻媒体通道中采集新闻并根据新闻的内容时间准确性将数据筛选并存入区块链数据湖中;所述数据湖模块为:汇总mysql数据库中,传播通道cache数据库以及区块链数据库;所述算法分析模块为:对汇总mysql数据库中的相应新闻数据进行话题聚类,根据话题类型生成集合,并选择待目标事件对应的集合,统计出目标事件的起始发布时间;对传播通道cache数据库中的细分新闻事件重复进行相似性分析,选取第一条新闻数据,通过聚类找到与该新闻数据具有相同话题的新闻数据,作为另一个集合;并将重要节点数据存入区块链数据库中;所述数据计算配置为:统计该趋势曲线上的极大值点的个数,并计算出变化阶段的个数;同时分别将每个变化阶段等间隔地划分为预设数量的时间段,计算对应时间段中产生的信息量,进而计算出极大值点和极小值点;所述追踪模块配置为:以该事件起始发布时间为起点,根据区块链数据湖中的新闻数据绘制此事件在单位时间内的信息量随时间变化的曲线;在对应曲线上进行等时间间隔采样,绘制出平滑后的趋势曲线;所述溯源模块配置为:在该趋势曲线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。
技术总结
本发明属于区块链领域,具体涉及一种区块链中信息溯源与追踪的方法及系统,旨在提高计算效率和结果准确率。本发明的方法包括:从多个不同的新闻传播通道中采集新闻数据通过预言机对信息完成筛选后将数据存入区块链数据湖中;然后通过独创的QuickDT算法进行话题聚类,选取待追踪事件对应的新闻集合,并确定待追踪事件的起始发布时间;根据区块链数据湖中的新闻数据绘制待追踪事件在单位时间内的信息量随时间变化的曲线,并在曲线上进行等时间间隔采样,绘制出平滑后的趋势曲线;分别计算对应变化阶段的个数和极值点,从而划分出不同的变化阶段实现信息的溯源与追踪过程。本发明降低了区块链的运行压力,提高了新闻数据的真实性与系统运行效率,在不增加算法时间复杂度的同时,避免了阈值依赖和形状依赖等问题。避免了阈值依赖和形状依赖等问题。避免了阈值依赖和形状依赖等问题。
技术研发人员:蔡维德
受保护的技术使用者:天民(青岛)国际沙盒研究院有限公司
技术研发日:2021.09.10
技术公布日:2022/3/8