IO设备的错误处理方法、宿主机、设备、介质和产品与流程

专利查询1月前  24


本申请涉及计算机,尤其涉及一种io设备的错误处理方法、宿主机、电子设备、计算机可读存储介质和计算机程序产品,可应用于io虚拟化。


背景技术:

1、随着输入输出(input output,io)虚拟化技术的广泛应用,尤其是在高性能计算和数据中心领域,io设备的虚拟化已成为实现资源高效利用的关键技术之一。单根输入输出虚拟化(single root input output virtualization, sr-iov)通过将一个物理io设备划分为多个虚拟功能(virtual function, vf),使多个虚拟机共享同一个物理io设备,从而提高了硬件资源的利用效率。在这种架构下,每个 vf可以独立直通(pass-through)给虚拟机。这种直通方式带来了近似原生的硬件访问性能,但也引入了一系列的错误处理问题。例如,当物理io设备的某个 vf 发生错误时,所有 vf直通的虚拟机都会被停止,导致整个系统的性能下降和资源浪费。


技术实现思路

1、本申请实施例提供一种io设备的错误方法、宿主机、电子设备、计算机可读存储介质和计算机程序产品,以缓解或解决现有技术中存在的一项或多项技术问题。

2、第一方面,本申请实施例提供了一种io设备的错误处理方法,包括:响应于针对目标错误的错误中断请求,获取目标错误信息,其中,所述错误中断请求为在物理io设备发现目标错误的情况下被触发,所述物理io设备被虚拟化为多个虚拟化io设备,所述多个虚拟化io设备被分配给多个虚拟机;基于所述目标错误信息,将所述多个虚拟机中的目标虚拟机停止运行,其中,所述目标错误信息中包括与所述目标错误的影响范围相关联的关联信息,所述目标虚拟机为所述目标错误的影响范围内的虚拟机。

3、第二方面,本申请实施例提供了一种宿主机,包括:物理io设备,所述物理io设备被虚拟化为多个虚拟化io设备,所述多个虚拟化io设备被分配给多个虚拟机;处理器,所述处理器承载所述多个虚拟机,所述处理器用于在收到错误中断请求的情况下,实现本申请实施例任一项的方法。

4、第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,处理器在执行计算机程序时实现本申请实施例任一项的方法。

5、第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现本申请实施例任一项的方法。

6、第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本申请实施例任一项的方法。

7、根据本申请实施例的技术方案,在物理io设备上的某个虚拟化io设备发生错误(即目标错误)的情况下,获取目标错误信息,由于目标错误信息包含与目标错误的影响范围相关联的关联信息,因此,操作系统内核可以根据目标错误的影响范围停止相应的目标虚拟机的运行,实现按需进行错误隔离,从而提高系统的稳定性和可靠性。

8、可选地,根据目标错误的错误类型确定需要停止运行的虚拟机,例如在错误类型为可隔离错误类型的情况下进行错误隔离,仅停止受错误影响的虚拟机,使设备或系统管理软件中的请求者/接收器的处理逻辑能够在不重置链路组件和干扰其他进行中事务的情况下,从错误中恢复,实现了更加精准和高效的错误隔离,可以进一步提升虚拟化系统的可靠性和可用性。



技术特征:

1.一种io设备的错误处理方法,包括:

2.根据权利要求1所述的错误处理方法,其中,所述关联信息为所述目标错误的错误类型的信息,在所述目标错误的错误类型为可隔离错误类型的情况下,所述目标虚拟机为目标虚拟化io设备所属的虚拟机,所述目标虚拟化io设备为发生所述目标错误的虚拟化io设备。

3.根据权利要求2所述的错误处理方法,其中,所述可隔离错误类型包括事务性错误。

4.根据权利要求2所述的错误处理方法,其中,所述目标错误信息中还包括所述目标虚拟化io设备的设备信息,所述基于所述目标错误信息,将所述多个虚拟机中的目标虚拟机停止运行,包括:

5.根据权利要求1所述的错误处理方法,其中,所述关联信息为所述目标错误的错误类型的信息,在所述目标错误的错误类型为不可隔离错误类型的情况下,所述目标虚拟机为所述多个虚拟机。

6.根据权利要求5所述的方法,其中,所述不可隔离错误类型包括链路层错误或物理层错误。

7.根据权利要求5所述的方法,其中,所述目标错误信息中还包括目标虚拟化io设备的设备信息,所述目标虚拟化io设备为发生所述目标错误的虚拟化io设备,所述目标虚拟化io设备上连上行端口,所述基于所述目标错误信息,将所述多个虚拟机中的目标虚拟机停止运行,包括:

8.根据权利要求1所述的方法,其中,所述关联信息为所述目标错误的错误类型的信息,所述目标错误信息中还包括目标虚拟化io设备的设备信息,所述目标虚拟化io设备为发生所述目标错误的虚拟化io设备,所述获取目标错误信息,包括:

9.一种宿主机,包括:

10.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器在执行所述计算机程序时实现权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。

12.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至8中任一项所述的方法。


技术总结
本申请实施例提供一种IO设备的错误处理方法、宿主机、设备、介质和产品,涉及计算机技术领域,方法包括:响应于针对目标错误的错误中断请求,获取目标错误信息,错误中断请求为在物理IO设备发现目标错误的情况下被触发,物理IO设备被虚拟化为多个虚拟化IO设备,多个虚拟化IO设备被分配给多个虚拟机;基于目标错误信息,将所述多个虚拟机中的目标虚拟机停止运行,其中,目标错误信息中包括与目标错误的影响范围相关联的关联信息,目标虚拟机为目标错误的影响范围内的虚拟机。本申请实施例的技术方案可以实现按需进行错误隔离,从而提高系统的稳定性和可靠性。

技术研发人员:薛帅,田瑞冬,宋卓,杨勇,马涛
受保护的技术使用者:阿里云计算有限公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)