一种基于大模型的云服务器健康管理方法及系统与流程

本发明涉及服务器健康管理，具体的说是一种基于大模型的云服务器健康管理方法及系统。

背景技术：

1、计算机技术的不断进步，加快了各行各业的飞速发展，推动了智能化时代的到来。数据要素作为智能化时代的关键，如何从海量的数据中提取有用信息成为智能化转型的重要一步，而如何支撑起海量数据的处理与运算，则需要强大的计算机处理能力。云服务器能够充分整合计算资源，具有便携性强、资源价格便宜、个性化程度高的特点，用户可以根据自身需求来选择租用相应的计算资源。云服务器性能的好坏直接影响到云计算的服务质量和客户体验，因此对云服务器进行健康管理，可以避免因服务器故障导致的重大损失。

2、大模型作为人工智能领域的一项重要技术突破，近年来逐渐成为科技界和学术界关注的焦点。随着智能化时代和大数据时代的来临，人们逐渐认识到传统模型在处理海量数据时的局限性。因此，构建更大、更复杂的模型成为了解决这一问题的关键。大模型通常基于深度学习算法，通过构建庞大的神经网络来模拟人类的认知过程。这种模型需要庞大的数据集进行训练，以便学习并理解各种复杂的模式和关联。随着训练数据的不断增加，大模型的性能也逐渐提升，能够更准确地识别、分析和预测各种现象。在实际应用中，大模型展现出了巨大的潜力。无论是自然语言处理、图像识别还是语音识别等领域，大模型都取得了显著的成果。它能够理解人类的语言、识别图像中的物体、识别语音中的指令，为人类提供更加智能、便捷的服务。

3、利用大模型技术实现对云服务器的健康管理迫在眉睫，如何应对日益繁琐的云服务器设备健康管理工作，解决好云服务器全生命周期的维修保障工作，为运维人员提供丰富广泛的问题解决手段，提高云服务器运行的稳定性、安全性，降低生产成本，是重中之重。

技术实现思路

1、本发明针对目前技术发展的需求和不足之处，提供一种基于大模型的云服务器健康管理方法及系统。用于实现对云服务器性能的实时精准预测和健康管理，保障云服务器的稳定运行。

2、第一方面，本发明提供一种基于大模型的云服务器健康管理方法，解决上述技术问题采用的技术方案如下：

3、一种基于大模型的云服务器健康管理方法，其包括如下步骤：

4、s1、采集云服务器的性能状态数据，以及云服务器的维修记录和历史报告信息，所述历史报告信息包括历史异常运行状态、异常产生的原因和采取的维修措施；

5、s2、对采集的云服务器性能状态数据进行预处理，将预处理后的云服务器性能状态数据随机划分到训练集和测试集；

6、s3、构建基于误差补偿的gru模型，使用训练集训练gru模型，使用测试集评估gru模型的泛化能力和预测准确性；

7、s4、利用gru模型的输出来建立一个性能预警模型，用于判断云服务器的运行状态，并在检测到云服务器异常时发出告警；

8、s5、使用基于transformer的预训练后的大模型作为基模型，将采集的云服务器维修记录和历史报告信息数据进行格式转换，使用格式转换后的数据进行大模型的微调；将性能预警模型告警时云服务器的性能状态数据输入微调后的大模型，微调后的大模型输出异常状态预测结果、异常产生的原因和维修的相关建议。

9、可选的，执行步骤s3，构建的gru模型包括n个gru子模块，每个gru子模块都是一个标准的gru网络，能够处理序列数据并捕捉时间序列中的长期依赖关系；

10、每个gru子模块的输入为训练集的原始输入数据x；

11、第一个gru子模块的预测输出为云服务器性能指标数据目标输出即实际输出为云服务器性能指标数据y；

12、将第一个gru子模块的预测输出和目标输出y的残差作为第二个gru子模块的目标输出，第二个gru子模块的预测输出为

13、将第二个gru子模块的预测输出与目标输出δy1的残差作为第三个gru子模块的目标输出，第三个gru子模块的预测输出为

14、继续执行上述操作，直到第n个gru子模块，将第n-1个gru子模块的预测输出与目标输出δyn-2的残差作为第n个gru子模块的目标输出，第n个gru子模块的预测输出为

15、最终得到n个预测输出将这n个预测输出进行累加即形成gru模型的最终预测结果

16、进一步可选的，使用测试集对gru模型的性能进行测试，测试过程中采用均方差函数作为评价指标：

17、

18、其中，rmse表示均方根误差，m表示测试集所包含样本的个数，yi表示目标输出值，表示预测输出值；

19、整个测试过程中rmse值都在设定阈值范围内，即表明gru模型测试合格。

20、可选的，执行步骤s4，在性能预警模型中设定正常状态与异常状态的区分阈值、以及异常状态持续运行的时间阈值；

21、若性能预警模型根据gru模型的输出判断云服务器为异常状态、且云服务器以该状态运行的持续时间未超过设定的时间阈值，则判定为云服务器处于正常状态；

22、若性能预警模型根据gru模型的输出判断云服务器为异常状态、且云服务器以该状态运行的持续时间超过设定的时间阈值，则判定为云服务器即将出现异常，此时，性能预警模型根据gru模型输入数据的变化情况，找出影响云服务器性能的潜在因素，输入微调后的大模型。

23、可选的，执行步骤s2，对采集的云服务器性能状态数据进行预处理，具体包括：

24、数据清洗：检查数据的完整性，移除或填充缺失值，去除无关特征，处理异常值；

25、数据标准化：将数据标准化，使其具有标准正态分布；

26、数据编码：对类别型数据进行编码；

27、序列数据重构：对于时间序列数据，根据gru模型的需求，将数据组织成序列形式，确保输入数据的形状符合gru模型的期望；

28、随后，将预处理后的云服务器性能状态数据按照8:2或7:3的比例随机划分到训练集和测试集。

29、第二方面，本发明提供一种基于大模型的云服务器健康管理系统，解决上述技术问题采用的技术方案如下：

30、一种基于大模型的云服务器健康管理系统，其包括：

31、数据采集模块，用于采集云服务器的性能状态数据，以及云服务器的维修记录和历史报告信息，所述历史报告信息包括历史异常运行状态、异常产生的原因和采取的维修措施；

32、预处理模块，用于对采集的云服务器性能状态数据进行预处理；

33、数据划分模块，用于将预处理后的云服务器性能状态数据随机划分到训练集和测试集；

34、模型构建模块，用于构建基于误差补偿的gru模型；

35、训练测试模块，用于使用训练集训练gru模型，使用测试集评估gru模型的泛化能力和预测准确性；

36、模型建立模块，用于利用gru模型的输出来建立一个性能预警模型；

37、性能预警模型，用于判断云服务器的运行状态，并在检测到云服务器异常时发出告警；

38、格式转换模块，用于将采集的云服务器维修记录和历史报告信息数据进行格式转换；

39、模型微调模块，用于使用基于transformer的预训练后的大模型作为基模型，使用格式转换后的数据进行大模型的微调；

40、微调后的大模型，用于以性能预警模型告警时云服务器的性能状态数据作为输入，输出异常状态预测结果、异常产生的原因和维修的相关建议。

41、可选的，所涉及模型构建模块构建的gru模型包括n个gru子模块，每个gru子模块都是一个标准的gru网络，能够处理序列数据并捕捉时间序列中的长期依赖关系；

42、每个gru子模块的输入为训练集的原始输入数据x；

43、第一个gru子模块的预测输出为云服务器性能指标数据目标输出即实际输出为云服务器性能指标数据y；

44、将第一个gru子模块的预测输出和目标输出y的残差作为第二个gru子模块的目标输出，第二个gru子模块的预测输出为

45、将第二个gru子模块的预测输出与目标输出δy1的残差作为第三个gru子模块的目标输出，第三个gru子模块的预测输出为

46、继续执行上述操作，直到第n个gru子模块，将第n-1个gru子模块的预测输出与目标输出δyn-2的残差作为第n个gru子模块的目标输出，第n个gru子模块的预测输出为

47、最终得到n个预测输出将这n个预测输出进行累加即形成gru模型的最终预测结果

48、进一步可选的，所涉及训练测试模块使用测试集对gru模型的性能进行测试，测试过程中采用均方差函数作为评价指标：

49、

50、其中，rmse表示均方根误差，m表示测试集所包含样本的个数，yi表示目标输出值，表示预测输出值；

51、整个测试过程中rmse值都在设定阈值范围内，即表明gru模型测试合格。

52、可选的，使用模型建立模块建立性能预警模型时，设定正常状态与异常状态的区分阈值、以及异常状态持续运行的时间阈值；

53、若性能预警模型根据gru模型的输出判断云服务器为异常状态、且云服务器以该状态运行的持续时间未超过设定的时间阈值，则判定为云服务器处于正常状态；

54、若性能预警模型根据gru模型的输出判断云服务器为异常状态、且云服务器以该状态运行的持续时间超过设定的时间阈值，则判定为云服务器即将出现异常，此时，性能预警模型根据gru模型输入数据的变化情况，找出影响云服务器性能的潜在因素，输入微调后的大模型。

55、可选的，所涉及预处理模块对采集的云服务器性能状态数据进行预处理，具体过程包括：

56、数据清洗：检查数据的完整性，移除或填充缺失值，去除无关特征，处理异常值；

57、数据标准化：将数据标准化，使其具有标准正态分布；

58、数据编码：对类别型数据进行编码；

59、序列数据重构：对于时间序列数据，根据gru模型的需求，将数据组织成序列形式，确保输入数据的形状符合gru模型的期望；

60、随后，所述数据划分模块将预处理后的云服务器性能状态数据按照8:2或7:3的比例随机划分到训练集和测试集。

61、本发明的一种基于大模型的云服务器健康管理方法及系统，与现有技术相比具有的有益效果是：

62、1、本发明充分结合传统机器学习和大模型的自身优势，对云服务器的健康状态进行实时管理，可以实现对云服务器不同状态信息的融合，并输出有效的云服务器健康管理策略，包括服务器的故障预测与预警和健康状态保障，提高诊断效果和维护效率。

63、2、本发明可以实现对云服务器状态的精准预警，告诉运维人员故障问题出现的可能因素并给出专业可行的指导性建议和实施措施，提高运维人员的处理效率。

技术特征：

1.一种基于大模型的云服务器健康管理方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于大模型的云服务器健康管理方法，其特征在于，执行步骤s3，构建的gru模型包括n个gru子模块，每个gru子模块都是一个标准的gru网络，能够处理序列数据并捕捉时间序列中的长期依赖关系；

3.根据权利要求2所述的一种基于大模型的云服务器健康管理方法，其特征在于，使用测试集对gru模型的性能进行测试，测试过程中采用均方差函数作为评价指标：

4.根据权利要求1所述的一种基于大模型的云服务器健康管理方法，其特征在于，执行步骤s4，在性能预警模型中设定正常状态与异常状态的区分阈值、以及异常状态持续运行的时间阈值；

5.根据权利要求1所述的一种基于大模型的云服务器健康管理方法，其特征在于，执行步骤s2，对采集的云服务器性能状态数据进行预处理，具体包括：

6.一种基于大模型的云服务器健康管理系统，其特征在于，其包括：

7.根据权利要求6所述的一种基于大模型的云服务器健康管理系统，其特征在于，所述模型构建模块构建的gru模型包括n个gru子模块，每个gru子模块都是一个标准的gru网络，能够处理序列数据并捕捉时间序列中的长期依赖关系；

8.根据权利要求7所述的一种基于大模型的云服务器健康管理系统，其特征在于，所述训练测试模块使用测试集对gru模型的性能进行测试，测试过程中采用均方差函数作为评价指标：

9.根据权利要求6所述的一种基于大模型的云服务器健康管理系统，其特征在于，使用模型建立模块建立性能预警模型时，设定正常状态与异常状态的区分阈值、以及异常状态持续运行的时间阈值；

10.根据权利要求6所述的一种基于大模型的云服务器健康管理系统，其特征在于，所述预处理模块对采集的云服务器性能状态数据进行预处理，具体过程包括：

技术总结
本发明公开一种基于大模型的云服务器健康管理方法及系统，涉及服务器健康管理技术领域，方法包括：采集云服务器的性能状态数据、云服务器的维修记录和历史报告信息；对性能状态数据进行预处理，并随机划分到训练集和测试集；构建基于误差补偿的GRU模型，使用训练集训练GRU模型，使用测试集评估GRU模型；利用GRU模型的输出来建立性能预警模型，来判断云服务器的运行状态，并在检测到云服务器异常时发出告警；将维修记录和历史报告信息进行格式转换，用于对大模型进行微调；将告警时的性能状态数据输入微调后的大模型，以输出异常状态预测结果、异常产生的原因和维修的相关建议。本发明可以实现对云服务器状态的精准预警，提高运维人员的处理效率。

技术研发人员：田业,刘晓玉,陈尧
受保护的技术使用者：浪潮云信息技术股份公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)