一种基于协议流量分析的行业关系链挖掘方法及系统与流程

专利查询2023-8-16  130



1.本发明涉及物联网、物联网流量解析还原的技术领域,具体是涉及一种基于协议流量分析的行业关系链挖掘方法及系统。


背景技术:

2.目前,现有技术将需要分析的设备或者app接入到抓包环境中,通过 wireshark或fiddler等抓包工具,选择对应的网卡对待分析的应用抓包分析。由于物联网设备工作环境的特殊性,物联网设备无法直接接入到抓包环境中,导致传统的分析方法不能直接的对物联网设备流量进行分析,即使基于现有网络流量分析,在海量的流量中又不能准确的定位到物联网设备,传统的分析方法不能有效的切入到物联网这个领域。


技术实现要素:

3.发明目的:针对以上缺点,本发明提供一种基于协议流量分析的行业关系链挖掘方法,能够从海量的流量中,发掘物联网行业终端、平台、用户之间业务流量的相互关联关系,获取有价值的行业关系链信息。本发明还提供一种基于协议流量分析的行业关系链挖掘系统,用于获得有价值的行业关系链信息。
4.技术方案:为解决上述问题,本发明所述的一种基于协议流量分析的行业关系链挖掘方法,具体包括以下步骤:
5.(1)通过镜像的方式获取待分析的流量;
6.(2)根据需要分析行业的产品编号,构建正则表达式;所述正则表达式能够识别包括该产品编号的流量;利用正则表达式对于获取的流量进行初步的过滤;
7.(3)对于初步过滤后的流量,根据http协议、https协议和私有协议进行二次人工筛查,获取各条流量对应的服务端信息;通过服务端的ip地址、域名信息或者流量中的关键字可以分析判断各条流量是否属于该行业设备产生的;
8.(4)根据apn、ipc备案、报文负载的内容以及行动轨迹对于各条流量反应的设备资产进一步的核实,判断是否属于该行业的;所述行动轨迹根据流量中的信令包包含的基站数据获取;
9.(5)根据核实的各条流量反应的设备资产及其对应的服务端信息,绘制行业的关系图谱。
10.进一步的,还包括步骤(6)针对核实的一个或一类设备资产,记录源ip 地址,将源ip地址作为过滤条件进行过滤,将该设备或该类设备所有流量过滤出来,进而分析与厂商的合作关系。
11.进一步的,所述的二次人工筛查具体是根据http协议的host、https协议的sni和私有协议的目的ip地址来获取各条流量对应的服务端。
12.进一步的,所述的该设备或该类设备所有流量是利用设备的imsi溯源获得的。
13.进一步的,所述的分析与厂商的合作关系具体根据设备的上网日志获得访问的网
站数据,通过访问记录获取设备集成的应用和接口的数据,进而分析设备与厂商的合作关系。
14.进一步的,所述的产品编号为车架号或者快递柜编号。
15.有益效果:本发明相对于现有技术,其显著优点是:1、通过设置正则表达式和各类协议对于流量进行筛查,可以获取属于需要分析的行业的设备产生的流量信息。经过进一步的核实,可以确定所分析的流量属于产业链中设备产生的;进而根据该条流量包括的设备资产信息和对应的服务端的信息绘制出相应的行业图谱;2、通过源ip地址的条件设计,提取出核实后一个设备或者一类设备的所有的流量,进而得到合作的厂商。
16.此外,本发明还提供一种基于协议流量分析的行业关系链挖掘系统,具体包括:
17.流量获取模块,用于通过镜像的方式获取待分析的流量;
18.初步筛查模块,用于根据需要分析行业的产品编号,构建正则表达式;所述正则表达式能够识别包括该产品编号的流量;利用正则表达式对于获取的流量进行初步的过滤;
19.人工筛查统计模块,用于对于初步过滤后的流量,根据http协议、https 协议和私有协议进行二次人工筛查,获取各条流量对应的服务端信息;通过服务端的ip地址、域名信息或者流量中的关键字可以分析判断各条流量是否属于该行业设备产生的;
20.设备资产核实模块,用于根据apn、ipc备案、报文负载的内容以及行动轨迹对于各条流量反应的设备资产进一步的核实,判断是否属于该行业的;所述行动轨迹根据流量中的信令包包含的基站数据获取;
21.关系谱图绘制模块,用于根据核实的各条流量中反应的设备资产及其对应的服务端信息,绘制行业的关系图谱。
22.进一步的,还包括:合作关系分析模块,用于针对核实的一个或一类设备资产,记录源ip地址,将源ip地址作为过滤条件进行过滤,将该设备或该类设备所有流量过滤出来,进而分析与厂商的合作关系。
23.进一步的,人工筛查统计模块中所述二次人工筛查具体是根据http协议的host、https协议的sni和私有协议的目的ip地址来获取各条流量对应的服务端信息。
24.进一步的,合作关系分析模块中所述的该设备或该类设备所有流量是利用设备的imsi溯源获得的;合作关系分析模块中所述的分析与厂商的合作关系具体根据设备的上网日志获得访问的网站数据,通过访问记录获取设备集成的应用和接口的数据,分析与厂商的合作关系。
25.有益效果:本发明相对于现有技术,其显著优点是:利用本系统从海量的流量中,获取可以有价值的行业关系链信息。
附图说明
26.图1所示为本发明所述方法的流程图;
27.图2所示为本发明所述利用正则表达式过滤的结果示意图;
28.图3所示为本发明利用http协议获得服务端的结果示意图;
29.图4所示为本发明利用https协议获得服务端的结果示意图;
30.图5所示为绘制的车联网产业的关系图谱;
31.图6所示为与领克汽车合作的厂商的关系图谱。
具体实施方式
32.下面结合附图对于本发明所述的方法作进一步说明。
33.如图1所示,本发明所述的一种基于协议流量分析的行业关系链挖掘方法,具体包括以下步骤:
34.(1)获取待分析的流量;所述的待分析的流量是由运营商流量通过镜像的方式获得的;其中,确保包括需要分析行业的设备或者应用产生的流量;
35.(2)根据需要分析行业的产品编号,构建正则表达式;所述正则表达式能够识别包括该产品编号的流量;
36.具体的,车联网的产品编号为车架号,该产品编号是唯一的;车的车架号是是由17位字母、数字组成的编码,是用于汽车上的一组独一无二的号码,可以识别汽车的生产商、引擎、底盘序号及其他性能等资料,车架号的首位代表国家,中国是l,德国是w,为了避免与数字的1、0混淆,英文字母“i”、“o”、“q”均不使用,如果只针对国产汽车的话,车架号表达式为l[0-9a-hj-npr-z]{16};快递行业的能够唯一认证的产品编号为快递单号;快递单号的前两位为数字或者字幕,后面全是数字,不同快递单位的单号的前两位是不一样的,比如京东是 jd,极兔是jt,邮政是11或者98,顺丰是sf等,不同快递单位的单号总长度也不一样,京东15位,极兔15位,邮政13位,顺丰15位,根据快递单号的前两位加长度,可以描述出不同厂家的快递单号正则,以京东为例,快递单号的正则表达式为jd[\d]{13}。此外,快递柜能够唯一认证的产品编号为快递柜编号,快递扫码枪能够唯一认证的产品编号为pda编号,pos机能够唯一认证的产品为银行卡号,根据这些产品编号的表现形式,能够构建出相应的正则表达式,这些表达式能够识别包含产品编号的流量。
[0037]
(3)利用正则表达式对于获取的流量进行初步的过滤;例如:利用正则表达式l[0-9a-hj-npr-z]{16}对于流量即报文信息进行初步的过滤,过滤后的均为包含车架号的报文信息,过滤结果如图2所示;
[0038]
(4)对于初步过滤后的流量,根据http协议的host、https协议的sni 和私有协议目的ip地址进行二次人工筛查,获取各条流量对应的服务端信息;通过服务端的ip地址、域名信息或者流量中的关键字可以分析判断各条流量是否属于该行业设备产生的;
[0039]
如图3所示,针对一条流量利用http协议的host可以确认服务端为亿咖通科技,是一个车联网平台的厂家,即可以判断该流量是车联网平台产生的。同理,如图4所示,针对一条流量根据https的sni可以确认服务端是大众,是一个车联网企业,该流量是车联网企业产生的且品牌为大众;针对一条流量通过私有协议筛查的流量对应的服务端,进而分析流量,判断是否为行业设备产生的;例如:通过服务端的域名可以得知是上海国泰公司,该公司的主营业务为信息导航;因为生成的导航是gps设备或者是中控设备,由于gps设备不产生流量,故能够分析该流量为车载中控产生;又例如:华为云的18835端口的mqtt协议,mqtt协议client集中包含t3 group字段,mqtt负载中包含t3 box字段,由此就可以分析出该条流量是t3车的t-box设备产生的流量。
[0040]
(5)根据apn、ipc备案、报文负载的内容以及行动轨迹对于流量反应的设备的资产信息进行核实;
[0041]
经过上述的筛查后得分析判断的结果是不准确的,例如:车管所中录入车架号的系统,这个系统虽然包含车架号信息,但是并非是车产生的,也非车联网平台或者企业产生
的,故需要对于该流量反应的资产信息进行进一步的核实。根据流量中的信令包存在的基站信息,如:apn、cgi、基站的经纬度等,最终确定行动轨迹,若行动轨迹未发生改变,则并非是车内设备产生的流量,则该资产设备信息并非是车联网产业的设备;若行动轨迹变化很快,能够判断出是车内的设备。又例如:快递柜资产信息的核实,由于一个快递柜设备内包含n个快件信息并且设备的位置信息是不变的,即轨迹不变,根据报文负载的内容可以进行上述特征的核实。
[0042]
(6)通过核实的设备资产信息结果及其对应服务端信息,绘制行业的关系图谱。如图5所示,例如根据包括车架号的流量信息内反应的资产:汽车中控,车载gps,车载t-box等,结合相应设备资产对应的服务端的信息,绘制出车联网产业链图谱;其中,汽车中控会上报车架号、行驶数据以及车辆状态给母公司,同时也会进行ntp时钟同步,服务端为各种大众、奔驰等汽车公司;车载的gps 会上报汽车的车架号、实时经纬度以及车辆速度给gps厂家,服务端为gps的厂家;由于t-box的功能多样化,它可以用来车联网平台对车辆的监控,也可以用于日常的休闲娱乐,还可以用于网约车的接单等,上报的数据除了车架号、行驶数据和位置以外,还会传输多媒体数据,甚至上报个人隐私,因此服务端为科大讯飞、广联赛讯、酷狗音乐等。
[0043]
(7)针对核实的一个或一类设备资产,记录源ip地址,将源ip地址作为过滤条件进行过滤,将该设备或该类设备利用imsi溯源获得的所有流量过滤出来,导出设备的上网日志,并分析每个设备会访问什么网站,取其交集得出这一类设备会访问什么网站,通过访问记录可以知道该设备集成了哪些应用和接口,从而得出这个设备和哪些厂家有合作关系。如附图6所示,在溯源的过程中发现领克汽车的t-box在出厂的时候集合了以下应用,驾驶信息接口亿咖通科技,导航系统百度地图,音乐检索qq音乐,手机投屏baidu carlife,进而说明领克汽车与以上公司有明确的合作关系,绘制出产品厂商合作图谱。
[0044]
此外,本发明还提供一种基于协议流量分析的行业关系链挖掘系统,具体包括:
[0045]
(1)流量获取模块,用于通过镜像的方式获取待分析的流量;
[0046]
(2)初步筛查模块,用于根据需要分析行业的产品编号,构建正则表达式;所述正则表达式能够识别包括该产品编号的流量;利用正则表达式对于获取的流量进行初步的过滤;
[0047]
(3)人工筛查统计模块,用于对于初步过滤后的流量,根据http协议的host、https协议的sni和私有协议的目的ip地址进行二次人工筛查,获取各条流量对应的服务端信息;通过服务端的ip地址、域名信息或者流量中的关键字可以分析判断各条流量是否属于该行业设备产生的;所述行动轨迹根据流量中的信令包包含的基站数据获取;
[0048]
(4)设备资产核实模块,用于根据apn、ipc备案、报文负载的内容以及行动轨迹对于各条流量反应的设备资产进一步的核实,判断是否属于该行业的;
[0049]
(5)关系谱图绘制模块,用于根据核实的各条流量中反应的设备资产及其对应的服务端信息,绘制行业的关系图谱。
[0050]
(6)合作关系分析模块,用于针对核实的一个或一类设备资产,记录源ip 地址,将源ip地址作为过滤条件进行过滤,将该设备或该类设备利用imsi获得的所有流量过滤出来,根据设备的上网日志获得访问的网站数据,通过访问记录获取设备集成的应用和接口的数据,进而分析产品设备与厂商的合作关系。

技术特征:
1.一种基于协议流量分析的行业关系链挖掘方法,其特征在于,具体包括以下步骤:(1)通过镜像的方式获取待分析的流量;(2)根据需要分析行业的产品编号,构建正则表达式;所述正则表达式能够识别包括该产品编号的流量;利用正则表达式对于获取的流量进行初步的过滤;(3)对于初步过滤后的流量,根据http协议、https协议和私有协议进行二次人工筛查,获取各条流量对应的服务端信息;通过服务端的ip地址、域名信息或者流量中的关键字可以分析判断各条流量是属于该行业设备产生的;(4)根据apn、ipc备案、报文负载的内容以及行动轨迹,对于各条流量反应的设备资产进一步的核实是否属于该行业的;所述行动轨迹根据流量中的信令包包含的基站数据获取;(5)根据核实的各条流量中反应的设备资产及其对应的服务端信息,绘制行业的关系图谱。2.根据权利要求1所述基于协议流量分析的行业关系链挖掘方法,其特征在于,还包括以下步骤:(6)针对核实的一个或一类设备资产,记录源ip地址,将源ip地址作为过滤条件进行过滤,将该设备或该类设备所有流量过滤出来,进而分析与厂商的合作关系。3.根据权利要求1所述基于协议流量分析的行业关系链挖掘方法,其特征在于,所述的二次人工筛查具体是根据http协议的host、https协议的sni和私有协议的目的ip地址来获取各条流量对应的服务端信息。4.根据权利要求2所述基于协议流量分析的行业关系链挖掘方法,其特征在于,所述的该设备或该类设备所有流量是利用设备的imsi溯源获得的。5.根据权利要求2所述基于协议流量分析的行业关系链挖掘方法,其特征在于,所述的分析与厂商的合作关系具体根据设备的上网日志获得访问的网站数据,通过访问记录获取设备集成的应用和接口的数据,分析与厂商的合作关系。6.根据权利要求1所述基于协议流量分析的行业关系链挖掘方法,其特征在于,所述的产品编号为车架号或快递柜编号。7.一种基于协议流量分析的行业关系链挖掘系统,其特征在于,具体包括:流量获取模块,用于通过镜像的方式获取待分析的流量;初步筛查模块,用于根据需要分析行业的产品编号,构建正则表达式;所述正则表达式能够识别包括该产品编号的流量;利用正则表达式对于获取的流量进行初步的过滤;人工筛查统计模块,用于对于初步过滤后的流量,根据http协议、https协议和私有协议进行二次人工筛查,获取各条流量对应的服务端信息;通过服务端的ip地址、域名信息或者流量中的关键字可以分析判断各条流量是否属于该行业设备产生的;设备资产核实模块,用于根据apn、ipc备案、报文负载的内容以及行动轨迹对于各条流量反应的设备资产进一步的核实,判断是否属于该行业的;所述行动轨迹根据流量中的信令包包含的基站数据获取;关系谱图绘制模块,用于根据核实的各条流量中反应的设备资产及其对应的服务端信息,绘制行业的关系图谱。8.根据权利要求7所述基于协议流量分析的行业关系链挖掘系统,其特征在于,还包
括:合作关系分析模块,用于针对核实的一个或一类设备资产,记录源ip地址,将源ip地址作为过滤条件进行过滤,将该设备或该类设备所有流量过滤出来,进而分析与厂商的合作关系。9.根据权利要求7所述基于协议流量分析的行业关系链挖掘系统,其特征在于,人工筛查统计模块中所述二次人工筛查具体是根据http协议的host、https协议的sni和私有协议的目的ip地址来获取各条流量对应的服务端信息。10.根据权利要求7所述基于协议流量分析的行业关系链挖掘系统,其特征在于,合作关系分析模块中所述的该设备或该类设备所有流量是利用设备的imsi溯源获得的;合作关系分析模块中所述的分析与厂商的合作关系具体根据设备的上网日志获得访问的网站数据,通过访问记录获取设备集成的应用和接口的数据,分析与厂商的合作关系。

技术总结
本发明公开了一种基于协议流量分析的行业关系链挖掘方法及系统,具体包括以下步骤:(1)获取待分析的流量;(2)构建能够识别包含行业产品编号流量的正则表达式;利用正则表达式对于获取的流量进行初步的过滤;(3)根据HTTP协议、HTTPS协议和私有协议进行二次人工筛查,获取各条流量对应的服务端信息;通过服务端的IP地址、域名信息或者流量中的关键字可以分析判断各条流量是否由属于该行业设备产生的;(4)根据APN、IPC备案、报文负载的内容以及行动轨迹对于流量反应的设备资产进一步的核实;(5)根据核实的设备资产及其服务端,绘制行业的关系图谱。本方法能够从海量的流量中发掘物联网行业终端、平台、用户之间业务流量的相互关联关系,获取行业关系图谱。获取行业关系图谱。获取行业关系图谱。


技术研发人员:蔡冰 贾晨 邢欣 陈关松
受保护的技术使用者:南京中新赛克科技有限责任公司
技术研发日:2021.10.19
技术公布日:2022/3/8

最新回复(0)