本发明涉及计算机网络,具体为一种计算机网络的故障诊断方法。
背景技术:
1、随着信息技术的飞速发展,计算机网络已成为现代社会不可或缺的基础设施,支撑着各行各业的运行与发展,然而,随着网络规模的扩大和复杂度的增加,网络故障的发生频率和影响范围也随之增大,网络故障不仅会导致数据丢失、服务中断,还可能引发安全事件,给企业和个人带来重大损失,因此,如何快速、准确地诊断并修复网络故障,成为计算机网络管理中亟待解决的问题。
2、目前,传统的集中式故障诊断方法在处理大规模网络故障时,往往依赖于一个中心节点进行故障诊断,导致了性能瓶颈问题,当网络规模较大、故障数量较多时,中心节点会因为处理能力有限而无法及时响应,从而延长故障诊断和修复的时间,且集中式方法存在单点故障风险,即中心节点出现故障,整个故障诊断方法将无法正常工作,这会使网络在故障发生时更加脆弱,并且在获取网络状态信息时存在局限性,由于中心节点只能获取有限的全局信息,对于网络中的局部故障难以准确检测和定位。
3、综上所述,现有的计算机网络故障诊断方法在面对大规模网络和复杂故障时存在明显的不足,为了解决这些问题,因此,如何在网络中部署多个分布式的故障诊断节点,实现对网络状态的全面监测和故障的快速网络故障诊断方法,成为保障计算机网络稳定运行的急需方案。
技术实现思路
1、本发明的目的就是为了弥补现有技术的不足,提供了一种计算机网络的故障诊断方法,它能够通过部署多个分布式故障诊断节点,并结合网络的层次化拓扑结构和流量分布,实现了对网络状态的全面实时监测,有效缩短了故障检测与定位的时间,提高了诊断的实时性,同时,利用先进的故障诊断算法和标准化的故障信息格式,确保了诊断结果的准确性和一致性,为后续的故障修复提供了可靠依据。
2、本发明为解决上述技术问题,提供如下技术方案:一种计算机网络的故障诊断方法,该诊断方法具体步骤为:
3、s100,在计算机网络中,部署多个分布式故障诊断节点并结合网络的层次化拓扑结构、流量分布,其具体包括:
4、所述对于层次化的网络拓扑,在核心层、汇聚层和接入层分别部署故障诊断节点,对不同层次的网络状态进行全面监测;
5、所述分布式故障诊断节点中的每个故障诊断节点都能够独立地处理其所负责的故障诊断任务,其不同位置的故障诊断节点与故障诊断中心节点相互通信;
6、所述故障诊断中心节点由监测单元、诊断单元、通信单元、控制单元和存储单元集成;
7、s200,各故障诊断节点之间通过通信网络进行信息交换,对故障诊断信息共享,使每个节点都能够获得更全面的网络状态信息;
8、所述信息共享对于一个节点检测到故障时,将故障信息以标准化格式发送给附近的节点;
9、所述故障信息包括故障的故障类型、发生时间、影响范围、优先级、关联设备id;
10、s300,对于节点检测到网络异常时,立即启动故障诊断流程,并通知其他节点,所述故障诊断流程包括异常检测、故障定位、故障修复和诊断结果;
11、s400,对网络异常进行异常检测,所述异常检测使用阈值比较和统计方法检测异常;基于异常检测信息所述故障定位根据各节点共享的信息和自身的诊断结果,协同确定故障位置和原因;所述故障修复利用故障诊断算法,根据故障的严重程度、影响范围和修复优先级,制定相应的故障处理方案,并协调各个故障诊断节点进行实施;所述诊断结果记录故障的类型、时间、修复过程以及诊断信息;
12、s500,根据诊断结果,自动和手动采取相应的故障修复建议,所述修复建议包括重置设备、重新配置网络参数、更换硬件。
13、更进一步地,所述核心层故障诊断节点可重点监测高带宽流量的稳定性、关键路由节点的状态;汇聚层故障诊断节点关注不同子网之间的通信质量和流量均衡;接入层故障诊断节点检测终端设备的连接稳定性和用户体验指标。
14、更进一步地,所述s100故障诊断中心节点中监测单元用于实时收集网络状态数据,所述诊断单元用于分析监测数据,识别和定位故障,所述通信单元用于与其他节点交换信息,所述控制单元用于管理和协调节点的诊断活动,所述存储单元用于保存故障历史数据、分析结果及配置信息。
15、更进一步地,所述s200附近的节点接收到故障信息后,结合监测到的数据进行进一步的分析和确认,对于多个节点都检测到相同的故障,中心节点对距离最近的故障进行修复,并将其修复结果传输至其他故障节点,其他节点依据中心节点的修复结果进行自处理。
16、更进一步地,所述节点之间共享故障诊断的经验和知识,节点通过中心节点将处理特定和相同类型的故障,分享给其他节点,每个节点都向知识库中添加新的诊断信息,并从中心节点获取其他节点分享的诊断记录。
17、更进一步地,所述s400异常检测使用阈值比较和统计方法检测异常,其通过收集网络性能指标数据,计算网络波动范围,基于历史数据与正常网络通信波动比较,并设定动态阈值,以检测异常,即对于网络参数为变量,其当前值为且在时间序列上的取值为,定义正常波动阈值范围为,其中和的计算公式为:,,则,,其中和为实际网络调整系数,为网络参数的平均值,反映了网络参数的中心趋势,为网络参数的标准差,衡量了取值的离散程度,即网络参数的波动情况,当网络参数的当前值满足或时,触发初步异常判断,即当前值超出正常波动范围,存在异常情况,并进一步使用统计方法进行确认。
18、更进一步地,所述异常检测基于初步异常判断,使用统计方法进行进一步确认,并定义统计量,其计算公式为:,此统计量衡量了当前值与平均值之间的距离相对于标准差的比例,比例较大,说明当前值与正常情况有较大的偏差,设定统计异常阈值为,当时,确定网络处于异常状态,对于异常状态根据各节点共享的信息和自身的诊断结果,进行故障定位。
19、更进一步地,所述s400故障修复利用故障诊断算法能够准确地确定故障的严重程度、影响范围和修复优先级,从而制定出相应的故障处理方案,即故障严重程度参数、影响范围参数、故障修复优先级参数,对于故障严重程度参数,其计算公式为:,表示数据传输异常程度,通过对比正常情况下与当前网络的数据传输速率差值来确定,即,其中为正常情况下的数据传输速率,为当前数据传输速率,表示故障持续时间,表示网络负载变化程度,通过当前网络负载与平均网络负载的差值占平均网络负载的比例来确定,即,其中为当前网络负载,为平均网络负载,、、为权重系数。
20、更进一步地,所述影响范围参数综合考虑受故障影响的设备和网络区域数量,以及每个设备区域的重要性权重和受故障影响的程度权重,对于影响范围参数,其计算公式为,其中,为受故障影响的设备和网络区域数量,表示第个设备和网络区域的重要性权重,表示第个设备和网络区域受故障影响的程度权重。
21、更进一步地,所述故障修复优先级参数的计算公式为:,其中,、、为调整系数,根据故障修复优先级参数确定故障处理方案,并设置优先级阈值,即高优先级阈值、中优先级阈值,对于,则采取紧急修复措施,即立即重置关键设备、调整核心网络参数,对于,则采取优先修复措施,即逐步排查故障节点、重新配置部分网络参数,对于,则采取常规修复措施,进行维护和故障排查。
22、与现有技术相比,该一种计算机网络的故障诊断方法具备如下有益效果:
23、一、本发明通过在计算机网络中部署多个分布式故障诊断节点,使得每个节点都能独立处理其所负责的故障诊断任务,同时不同位置的节点与故障诊断中心节点相互通信,实现信息共享,当网络出现异常时,各个节点可以快速响应,并通过协同工作确定故障位置和原因,结合异常检测的阈值比较和统计方法,能够准确地定位故障源,大大提高了故障诊断的准确性,减少了故障对网络的影响时间。
24、二、本发明通过在网络中部署多个故障诊断节点,实现了故障诊断任务的分布式处理,即使部分节点出现故障,其他节点仍然能够继续进行故障诊断,从而保证了计算机网络的整体稳定性和连续性,此外,本发明还设计了容错机制,即使在部分节点失效的情况下,仍然能够通过其他正常节点的协作,维持故障诊断的正常运行,这种高度的可靠性和容错能力,使得本发明的分布式故障诊断方法能够适应各种复杂的网络环境,为网络的稳定运行提供了更为坚实的保障。
25、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。
1.一种计算机网络的故障诊断方法,其特征在于,该诊断方法具体步骤为:
2.根据权利要求1所述一种计算机网络的故障诊断方法,其特征在于,所述核心层故障诊断节点可重点监测高带宽流量的稳定性、关键路由节点的状态;汇聚层故障诊断节点关注不同子网之间的通信质量和流量均衡;接入层故障诊断节点检测终端设备的连接稳定性和用户体验指标。
3.根据权利要求1所述一种计算机网络的故障诊断方法,其特征在于,所述s100故障诊断中心节点中监测单元用于实时收集网络状态数据,所述诊断单元用于分析监测数据,识别和定位故障,所述通信单元用于与其他节点交换信息,所述控制单元用于管理和协调节点的诊断活动,所述存储单元用于保存故障历史数据、分析结果及配置信息。
4.根据权利要求1所述一种计算机网络的故障诊断方法,其特征在于,所述s200附近的节点接收到故障信息后,结合监测到的数据进行进一步的分析和确认,对于多个节点都检测到相同的故障,中心节点对距离最近的故障进行修复,并将其修复结果传输至其他故障节点,其他节点依据中心节点的修复结果进行自处理。
5.根据权利要求4所述一种计算机网络的故障诊断方法,其特征在于,所述节点之间共享故障诊断的经验和知识,节点通过中心节点将处理特定和相同类型的故障,分享给其他节点,每个节点都向知识库中添加新的诊断信息,并从中心节点获取其他节点分享的诊断记录。
6.根据权利要求1所述一种计算机网络的故障诊断方法,其特征在于,所述s400异常检测使用阈值比较和统计方法检测异常,其通过收集网络性能指标数据,计算网络波动范围,基于历史数据与正常网络通信波动比较,并设定动态阈值,以检测异常,即对于网络参数为变量,其当前值为且在时间序列上的取值为,定义正常波动阈值范围为,其中和的计算公式为:,,则,,其中和为实际网络调整系数,为网络参数的平均值,反映了网络参数的中心趋势,为网络参数的标准差,衡量了取值的离散程度,即网络参数的波动情况,当网络参数的当前值满足或时,触发初步异常判断,即当前值超出正常波动范围,存在异常情况,并进一步使用统计方法进行确认。
7.根据权利要求6所述一种计算机网络的故障诊断方法,其特征在于,所述异常检测基于初步异常判断,使用统计方法进行进一步确认,并定义统计量,其计算公式为:,此统计量衡量了当前值与平均值之间的距离相对于标准差的比例,比例较大,说明当前值与正常情况有较大的偏差,设定统计异常阈值为,当时,确定网络处于异常状态,对于异常状态根据各节点共享的信息和自身的诊断结果,进行故障定位。
8.根据权利要求1所述一种计算机网络的故障诊断方法,其特征在于,所述s400故障修复利用故障诊断算法能够准确地确定故障的严重程度、影响范围和修复优先级,从而制定出相应的故障处理方案,即故障严重程度参数、影响范围参数、故障修复优先级参数,对于故障严重程度参数,其计算公式为:,表示数据传输异常程度,通过对比正常情况下与当前网络的数据传输速率差值来确定,即,其中为正常情况下的数据传输速率,为当前数据传输速率,表示故障持续时间,表示网络负载变化程度,通过当前网络负载与平均网络负载的差值占平均网络负载的比例来确定,即,其中为当前网络负载,为平均网络负载,、、为权重系数。
9.根据权利要求8所述一种计算机网络的故障诊断方法,其特征在于,所述影响范围参数综合考虑受故障影响的设备和网络区域数量,以及每个设备区域的重要性权重和受故障影响的程度权重,对于影响范围参数,其计算公式为,其中,为受故障影响的设备和网络区域数量,表示第个设备和网络区域的重要性权重,表示第个设备和网络区域受故障影响的程度权重。
10.根据权利要求1所述一种计算机网络的故障诊断方法,其特征在于,所述故障修复优先级参数的计算公式为:,其中,、、为调整系数,根据故障修复优先级参数确定故障处理方案,并设置优先级阈值,即高优先级阈值、中优先级阈值,对于,则采取紧急修复措施,即立即重置关键设备、调整核心网络参数,对于,则采取优先修复措施,即逐步排查故障节点、重新配置部分网络参数,对于,则采取常规修复措施,进行维护和故障排查。
