响应于并行维护的硬件恢复的制作方法

xiaoxiao2020-08-01  3

专利名称:响应于并行维护的硬件恢复的制作方法
技术领域
概括地说,本发明涉及用于重新配置数据处理系统的计算机实现的方法、数据处理系统、和计算机程序产品。更具体地,本发明涉及最小化在更大型数据处理系统上的并行维护操作中发现的错误的影响。
背景技术
通常,数据中心管理器依赖于期望具有100%正常运行时间的服务器。作为考虑到服务器组件的修护和升级的方式,工程师将这样的服务器设计为容纳现场可替换单元。高级的现场可替换单元被配置为响应于并行维护操作。并行维护操作是当现场可替换单元 (FRU)连接到的、或FRU要连接到的系统正在运行时FRU的增加、修护、或重新配置。

发明内容
本发明提供一种计算机实现的方法、数据处理系统、和装置,例如在并行维护操作期间响应于系统总线上的硬件接口错误。服务处理器可接收所述系统总线上的错误。所述错误识别至少一个第一现场可替换单元,并且可禁止针对所述至少一个第一现场可替换单元的时钟信号的抑制。服务处理器向合格现场可替换单元(FRU)列表增加所述至少一个第一现场可替换单元的标识符。服务处理器递归地增加现场可替换单元依赖的至少一个现场可替换单元。服务处理器抑制针对所述至少一个第一现场可替换单元的时钟信号。服务处理器禁止将所述至少一个第一现场可替换单元标记为不可用于下一初始程序加载。


在所附权利要求中阐述了认为是本发明特有的新颖性特征。然而,当结合附图阅读时,通过参照示例性实施例的以下具体描述将更好地理解发明本身、及其优选实施方式、 以及其他目的和优点,其中图1是根据本发明示例性实施例的数据处理系统的框图;图2是根据本发明示例性实施例的示例性逻辑分区平台的框图;图3是根据本发明示例性实施例的可能正在接收并行维护的数据处理系统的框图;以及图4是根据本发明示例性实施例可在并行维护操作期间发生的处理错误的步骤的流程图。
具体实施例方式现在参照附图,具体地参照图1,示出可实现本发明的数据处理系统的框图。数据处理系统100可以是对称多处理器(SMP)系统,其包括连接至系统总线106的多个处理器 101、102、103和104。例如,数据处理系统100可以是IBM eServer,这是纽约阿蒙克的国际商业机器公司的产品,实现为网络中的服务器。(IBM和必erver是国际商业机器公司的商标。)或者,可采用单处理器系统。同样连接至系统总线106还有存储器控制器/高速缓存 108,其提供对于多个本地存储器160-163的接口。I/O总线桥110连接至系统总线106,并提供对于I/O总线112的接口。如图所示,存储器控制器/高速缓存108和I/O总线桥110 可被集成,如图所示。数据处理系统100是逻辑分区(LPAR)数据处理系统。因此,数据处理系统100可具有同时运行的多个异构操作系统或单操作系统的多个实例。这些多个操作系统中的每个可具有其中执行的任意数目个软件程序。数据处理系统100在逻辑上分区,从而可向不同逻辑分区分配不同PCI I/O适配器120-121、128-1 和136、图形适配器148、和硬盘适配器149。在这个情况下,图形适配器148连接显示设备(未示出),而硬盘适配器149连接至并控制硬盘150。因此,例如,假设数据处理系统100分成三个逻辑分区P1、P2和P3。向这三个分区中的每个分配PCI I/O适配器120-121、1观-1四和136、图形适配器148、和硬盘适配器149 中的每个。在这些实例中,存储器160-163可采用双列直插式存储器模块(DIMM)的形式。 通常,DIMM并非基于每个DIMM分配给分区。相反,分区将得到平台所见的总存储器的一部分。例如,可向逻辑分区Pl分配处理器101、本地存储器160-163的存储器的某些部分、和 I/O适配器120、1 和129。同样,例如,可向逻辑分区P2分配处理器102-103、本地存储器 160-163的存储器的某些部分、和I/O适配器121和136 ;以及可向逻辑分区P3分配处理器 104、本地存储器160-163的存储器的某些部分、图形适配器148、和硬盘适配器149。向不同的逻辑分区分配在数据处理系统100中执行的每个操作系统。因此,在数据处理系统100中执行的每个操作系统仅可访问在其逻辑分区内的这些I/O单元。因此, 例如,高级交互执行(AIX)操作系统的一个实例可在分区Pl内执行,AIX操作系统的第二实例或镜像可在分区P2内执行,以及Linux操作系统可在逻辑分区P3内操作。AIX是国际商业机器公司的注册商标。Linux是Linus Torvalds的商标。连接至I/O总线112的外围组件互连(PCI)主机桥114提供对于PCI本地总线 115的接口。多个PCI输入/输出适配器120-121通过PCI到PCI桥116、PCI总线118、 PCI总线119、I/O槽170、和I/O槽171连接至PCI总线115。PCI到PCI桥116提供对于 PCI总线118和PCI总线119的接口。PCI I/O适配器120和121分别位于I/O槽170和 171中。典型的PCI总线方案支持四个和八个之间的I/O适配器,S卩,用于插件连接器的扩展槽。每个PCI I/O适配器120-121提供数据处理系统100和输入/输出设备(例如对于数据处理系统100的客户端的其他计算机)之间的接口。额外PCI主机桥122提供用于额外PCI总线123的接口。PCI总线123连接至多个 PCI I/O适配器1沘-1四。PCI I/O适配器128-129通过PCI到PCI桥124、PCI总线126、 PCI总线127、I/O槽172、和I/O槽173连接至PCI总线123。PCI到PCI桥IM提供对于 PCI总线126和PCI总线127的接口。PCI I/O适配器128和129分别位于I/O槽172和 173中。这样,可通过PCI I/O适配器128-129中的每个支持额外I/O设备(例如调制解调器或网络适配器)。因此,数据处理系统100允许对于多个网络计算机的连接。存储器映射图形适配器148插入至I/O槽174,并通过PCI总线144、PCI到PCI桥 142,PCI总线141、和PCI主机桥140连接至I/O总线112。硬盘适配器149可位于I/O槽 175中,其连接至PCI总线145。随后,这个总线连接至PCI到PCI桥142,其通过PCI总线141连接至PCI主机桥140。PCI主机桥130提供用于PCI总线131的接口,以连接至I/O总线112。PCI I/ 0适配器136连接至I/O槽176,其通过总线133连接至PCI到PCI桥132。PCI到PCI桥 132连接至PCI总线131。这个PCI总线还将PCI主机桥130连接至服务处理器邮箱接口和ISA总线接入通过逻辑194和PCI到PCI桥132。服务处理器邮箱接口和ISA总线接入通过逻辑194转发指向PCI/ISA桥193的PCI接入。NVRAM存储器192 (还已知为非易失性 RAM)连接至ISA总线196。服务处理器135通过其本地PCI总线195连接至服务处理器邮箱接口和ISA总线接入通过逻辑194。服务处理器135还经由多个JTAG/I2C总线1;34连接至处理器101-104。 JTAG/I2C总线134是JTAG/扫描总线的组合,由电气和电子工程师协会标准1149. 1和 Philips I2C总线定义。然而,或者,JTAG/I2C总线134可仅由Wiilips I2C总线替换或仅由JTAG/扫描总线替换。主机处理器101、102、103和104的所有SP-ATTN信号在一起连接至服务处理器135的中断输入信号。服务处理器135具有其自身的本地存储器191,并具有对于硬件OP面板190的接入。当数据处理系统100初始加电时,服务处理器135使用JTAG/I2C总线134询问系统(主机)处理器101-104、存储器控制器/高速缓存108、和I/O桥110。在这个步骤完成时,服务处理器135具有数据处理系统100的清单和拓扑的理解。服务处理器135还执行内建自我测试(BIST)、基本保证测试(BAT)、和通过询问主机处理器101-104、存储器控制器/高速缓存108、和I/O桥110发现的所有原件上的存储器测试。由服务处理器135来收集和报告在BIST、BAT、和存储器测试期间检测到的故障的任何错误信息。如果在除掉BIST、BAT、和存储器测试期间发现有缺陷的原件之后系统资源的有意义或有效配置仍旧是可能的,则允许数据处理系统100继续向本地或主机存储器160-163 中加载可执行代码。然后,服务处理器135释放主机处理器101-104,用于执行加载到本地存储器160-163中的代码的执行。当主机处理器101-104正在执行数据处理系统100中各个操作系统的代码时,服务处理器135进入监视和报告错误的模式。服务处理器135监视的项目的类型包括例如,冷却扇速度和运行、热传感器、电源稳压器、以及处理器101-104、 本地存储器160-163、和I/O桥110报告的可恢复和不可恢复错误。服务处理器135保存和报告与数据处理系统100中所有所述项目相关的错误信息。服务处理器135还基于错误的类型和定义的阈值采取动作。例如,服务处理器135注意到处理器的高速缓存存储器上过多的可恢复错误,并确定这个条件是硬故障的预测。基于这个确定,服务处理器135可标记那个处理器或其他资源,用于在未来初始程序加载(IPL) 时解除配置。IPL有时候还称为“引导”或“引导程序”。数据处理系统100可使用各种商业可用的计算机系统来实现。例如,数据处理系统100可使用国际商业机器公司可用的IBM eServer iSeries Model 840系统来实现。 (Keries是国际商业机器公司的商标。)这样的系统可使用也是国际商业机器公司可用的 0S/400操作系统来支持逻辑分区。(0S/400是国际商业机器公司的商标。)本领域普通技术人员可理解,图1中所示的硬件可改变。例如,可额外使用其他外围设备(例如光盘驱动器等)或代替所示的硬件。所示的实例不意味着暗示对于本发明的架构的限制。
现在参照图2,示出可实现本发明的示例性逻辑分区平台的框图。逻辑分区平台 200的硬件可实现为例如图1中的数据处理系统100。逻辑分区平台200包括分区硬件230 ; 操作系统202、204、206、208 ;和分区管理固件210。操作系统202、204、206、208可以是一个操作系统的多个副本或逻辑分区平台200上同时运行的多个异构操作系统。这些操作系统可使用0S/400实现,其被设计为与分区管理固件(例如管理程序)对接。0S/400仅用作这些示例性实施例中的实例。当然,依据特定方案,可使用其他类型的操作系统(例如AIX和 Linux)。操作系统202、204、206、208位于分区203、205、207和209中。管理程序软件是用于实现分区管理固件210的软件的实例,并且是国际商业机器公司可用的。固件是存储器芯片中存储的“软件”,其无需电力保持其内容,例如只读存储器(ROM)、可编程ROM(PROM)、 可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、和非易失性随机存取存储器(非易失性RAM)。此外,这些分区还包括分区固件211、213、215和217。分区固件211、213、215和 217可使用初始引导程序代码、IEEE-1275标准开放固件、和运行时抽象软件(RTAS)来实现,后者是国际商业机器公司可用的。当分区203、205、207和209被实例化时,通过平台固件210向分区203、205、207和209上加载引导程序代码的副本。之后,控制转移至引导程序代码,其中引导程序代码随后加载开放固件和RTAS。然后,向分区的存储器分派与分区关联或向其分配的处理器,以执行分区固件。分区硬件230包括多个处理器232-238、多个系统存储器单元M0-M6、多个输入 /输出(I/O)适配器M8462、和存储器单元270。向逻辑分区平台200中的多个分区之一分配处理器232-238、存储器单元M0-M6、NVRAM存储装置四8、和I/O适配器对8力62,其每个对应于操作系统202、204、206和208之一。分区管理固件210对于分区203、205、207和209执行多个功能和业务,以建立和执行逻辑分区平台200的划分。分区管理固件210是等同于基础硬件的固件实现的虚拟机。 因此,分区管理固件210通过视觉化逻辑分区平台200的所有硬件资源允许独立操作系统影像202、204、206和208的同时执行。服务处理器290可用于提供各种业务,例如分区中平台错误的处理。这些业务也可用作向卖方(例如国际商业机器公司)回报错误的业务代理。不同分区的操作可通过硬件管理控制台(例如硬件管理控制台观0)来控制。硬件管理控制器280是单独数据处理系统,系统管理员可从中执行各种功能,包括向不同分区的资源的重新分配。示例性实施例的方面允许用户在与正在接收并行维护操作的FRU通信或对应的活动FRU上继续操作。由此,中央电子机柜(CEC)可能不会遭受响应于在并行维护期间接收的FRU的故障而引起的性能降级。此外,一个或多个实施例可允许将活动FRU配置和操作用于执行初始程序加载的目的。图3是根据本发明示例性实施例的可能正在接收并行维护的数据处理系统300的框图。图3可以是图1的数据处理系统的早期形式。即,数据处理系统300能够接收升级, 以将数据处理系统300重新配置成为数据处理系统100。由此,灵活服务处理器305可针对例如中央电子机柜(CEC)的数据处理系统执行错误检测和恢复功能。对于数据处理系统的现场可替换单元(FRU)或其他组件,错误是无效状态。例如,错误可以是CEC并行维护 (CCM)可恢复错误、CCM不可恢复错误、CCM关键错误等。
例如,CEC机柜301可包括两个背板,背板302和背板304,其每个分别用“FRU 7” 和“FRU 8”来标识。现场可替换单元的标识符是将FRU唯一标识为数据处理系统的组件的标识符。类似地,每个背板包括至少一个处理器,例如分别为处理器312 (FRU 3)和处理器 314(FRU 4)。在这个配置中,背板302是对于处理器312的支持的现场可替换单元。支持的现场可替换单元是提供对于被支持的现场可替换单元要运行所需的电互连和/或机械支持的现场可替换单元。在这个情况下,背板302提供对于支持处理器312 (被支持的现场可替换单元)的槽和其他支持特征。每个背板可在总线之间通信以到达I/O适配器。I/O适配器323可连接至耦合至背板302的总线331。总线331可通过总线接口耦合至背板302。总线接口可以是例如I/ 0控制器集线器(ICH)、外围组件互连(PCI)主机桥等。类似地,I/O适配器325可连接至耦合至背板304的总线。此外,灵活服务处理器305可经由总线3 与背板和被支持的FRU 通信。灵活服务处理器305可依赖于固件307,以提供控制CEC机柜301的FRU的配置和测试的方式的机械指令。例如,固件可访问FRU列表309,如下所述,其可提供与经过并行维护的FRU相关的细节。此外,例如硬件管理控制台(HMC) 313的客户端可用于控制当在CEC机柜301上执行并行维护时采取的操作和步骤。客户端可以是允许系统管理员配置和管理分区以及在当前FRU上执行维护并增加至数据处理系统配置的工作站。图4是根据本发明示例性实施例可在并行维护操作期间发生的处理错误的步骤的流程图。并行维护可以是I/O适配器(例如图3的I/O适配器323)的增加。在这个情况下,I/O适配器323是中央电子机柜(CEC)并行维护(CCM)现场可替换单元或CCM FRU0 CCM FRU是作为并行维护的目标的FRU。图3的处理器312还可以是活动FRU。活动FRU是在中央电子机柜(CEC)中配置和运行的FRU。例如图3的灵活服务处理器305的服务处理器检测向总线增加的CCM FRU(步骤 401)。该总线为例如图3的总线329。服务处理器可确定是否接收到总线上的错误(步骤 403)。可生成与并行维护操作相关的错误。在步骤403的否定确定可导致随后的处理终止。 如果接收到总线上的错误,则服务处理器可禁止针对活动FRU的时钟信号的抑制。由此,活动FRU保持运行,同时时钟信号继续传播(步骤407)。接下来,服务处理器可向合格FRU列表增加活动FRU (步骤409)。合格现场可替换单元(FRU)列表是将错误标识符与错误中标识的FRU关联的数据结构。此外,合格FRU列表也可将支持的现场可替换单元与错误标识符关联。合格FRU列表可以是例如图3的合格 FRU列表309。合格FRU列表中列出的FRU可由下一初始程序加载(IPL)使用。接下来,服务处理器可递归地增加作为活动FRU的支持FRU的所有FRU(步骤 411)。由此,在处理器312是活动FRU的情况下,服务处理器可向合格FRU列表增加背板 302。因此,合格FRU列表可包括错误标识符,以及被确定为错误的一个或多个FRU,或支持错误的FRU。在这个实例中,这样的FRU可以是“FRU 3”和“FRU 7”。接下来,服务处理器可停止CEC并行维护(CCM)FRU上的时钟信号(步骤413)。服务处理器可通过协作地指示 FRU停止在FRU中生成的或经由FRU传播的时钟来停止时钟信号。例如,服务处理器可向安装在FRU上的集成电路中的寄存器中写入。这样的寄存器可专用于指示用于FRU的电路执行的进一步行为的时钟状态。服务处理器可禁止将CCM FRU标记为不可用于下一初始程序加载(步骤41 。在服务处理器依赖于表或其他数据结构将FRU标识为不可用的方面,服务处理器避免向这样的数据结构增加CCM FRU。不可用意味着CCM FRU不与任意进程关联或不可由任意进程选择以通过服务处理器将FRU配置为活动。接下来,服务处理器可中止CCM操作(步骤417)。 如果中止了 CCM操作,则处理可随后终止。例如,如果正在增加I/O适配器323,则服务处理器可中止这个操作。由此,服务处理器可将与中止的CCM操作相关的FRU与比特设置关联, 从而用信号通知FRU遭受CCM不可恢复错误。接下来,服务处理器可向客户端通知服务处理器接收的错误(步骤419)。客户端可以是例如硬件维护控制台。由此,访问这样的控制台的用户可确定中央电子机柜的当前状态。接下来,访问处理器接收用于第二并行维护操作的FRU的用户选择(步骤451)。 用户选择是对于客户端的用户输入或基于对于客户端的用户输入向服务处理器传播的任意信号。接下来,服务处理器确定系统配置标准是否满足于选择的FRU(步骤452)。系统配置标准可包括选择的FRU是否在合格FRU列表中的测试。由此,如果选择的FRU没有在合格FRU列表中找到,则可能不满足系统配置标准。另一方面,如果满足系统配置标准,则服务处理器确定未测试的FRU是否在合格FRU列表中(步骤45;3)。当在步骤451至步骤465 的用户选择之间的间隔期间FRU未被测试时,这样的FRU是未测试的FRU。系统配置标准是指示数据处理系统被配置为执行并行维护和/或硬件支持(例如冗余)是否允许执行并行维护的一个或多个测试或确定。系统配置标准可在步骤452或步骤457和459中测试,如下所述,或步骤452、457和459的任意组合中。如果满足系统配置标准,则服务处理器可获得下一未测试的FRU用于测试(步骤455)。接下来,服务处理器确定FIiU是否为固件的兼容类型(步骤457)。如果FRU不是兼容类型,则处理可在步骤453继续。否则,服务处理器确定FRU是否具有相关的冗余FRU (步骤459)。如果步骤459的结果为否定,则服务处理器确定是否存在限制理由,并且如果存在则向客户端报告(步骤 465)。进一步处理可在步骤453继续。然而,如果步骤459的结果为肯定,则服务处理器向客户端报告可修复FRU(步骤46 。进一步处理可在步骤453继续。客户端可以是例如图3 的HMC 313。修复可包括例如,重试命令或操作,向用户显示消息,记录错误,和继续CCM操作。接收关于可修复的FRU的状态的信息的用户可执行进一步测试,能够响应于这样的报告修复FRU。进一步测试可以是替换可用FRU。因此,步骤463可提示用户物理地替换FRU。 用户协调的修复可以是通过FRU的新CCM操作。确定在步骤452满足系统配置标准的失败可使得服务处理器返回错误(步骤 471)。在这个步骤期间,服务处理器可向客户端用信号通知系统配置标准的状态。在步骤 471之后,处理可终止。示例性实施例允许用户在传送或与在错误状态的FRU相应的活动FRU上继续操作。由此,中央电子机柜(CEC)并行维护(CCM)可能不会遭受响应于接收并行维护的FRU 的故障而引起的性能降级。此外,一个或多个实施例可允许将活动FRU配置和操作用于执行初始程序加载的目的。
权利要求
1.一种响应于系统总线上的硬件接口错误的方法,所述方法包括 接收所述系统总线上的错误,所述错误识别至少一个第一现场可替换单元; 禁止针对所述至少一个第一现场可替换单元的时钟信号的抑制;向合格现场可替换单元(FRU)列表增加所述至少一个第一现场可替换单元的标识符; 响应于所述至少一个第一现场可替换单元依赖于支持的现场可替换单元,向合格FRU 列表增加至少所述支持的现场可替换单元;抑制针对所述至少一个第一现场可替换单元的时钟信号;以及禁止将所述至少一个第一现场可替换单元标记为不可用于下一初始程序加载。
2.如权利要求1所述的方法,还包括 中止与错误相应的并行维护操作;以及向客户端通知错误。
3.如权利要求2所述的方法,还包括接收用于第二并行维护操作的第二现场可替换单元的用户选择; 基于所述用户选择确定是否满足系统配置标准;以及响应于满足系统配置标准的确定,测试所述第二现场可替换单元。
4.如权利要求3所述的方法,其中所述第二现场可替换单元是所述至少一个第一现场可替换单元。
5.如权利要求3所述的方法,其中测试还包括向客户端报告测试结果。
6.如权利要求3所述的方法,其中确定是否满足系统标准还包括确定所述第二现场可替换单元是否兼容于灵活服务处理器中的固件。
7.如权利要求3所述的方法,其中确定是否满足系统标准还包括确定所述第二现场可替换单元是否与相应于所述第二现场可替换单元的冗余现场可替换单元关联,以及基于所述第二现场可替换单元被配置为活动的而满足所述系统配置标准。
8.如权利要求7所述的方法,其中所述第二现场可替换单元是支持的现场可替换单元,并且其中禁止标记所述至少一个第一现场可替换单元包括禁止所述支持的现场可替换单元。
9.如权利要求1所述的方法,还包括接收用于第二并行维护操作的第二现场可替换单元的用户选择; 基于所述用户选择确定是否满足系统配置标准;响应于满足系统配置标准的确定,获得下一未测试的现场可替换单元用于测试;以及响应于满足系统配置标准的确定,测试所述第二现场可替换单元。
10.一种用于响应于系统总线上的硬件接口错误的计算机程序产品,所述计算机程序产品包括具有其中实现的计算机可用程序代码的计算机可用介质,所述计算机程序产品包括被配置为接收所述系统总线上的错误的计算机可用程序代码,所述错误识别至少一个第一现场可替换单元;被配置为禁止针对所述至少一个第一现场可替换单元的时钟信号的抑制的计算机可用程序代码;被配置为向合格现场可替换单元(FRU)列表增加所述至少一个第一现场可替换单元的标识符的计算机可用程序代码;响应于所述至少一个第一现场可替换单元依赖于支持的现场可替换单元,向合格FRU 列表增加至少所述支持的现场可替换单元的计算机可用程序代码;被配置为抑制针对所述至少一个第一现场可替换单元的时钟信号的计算机可用程序代码;以及被配置为禁止将所述至少一个第一现场可替换单元标记为不可用于下一初始程序加载的计算机可用程序代码。
11.如权利要求10所述的计算机程序产品,还包括被配置为中止与错误相应的并行维护操作的计算机可用程序代码;以及被配置为向客户端通知错误的计算机可用程序代码。
12.如权利要求11所述的计算机程序产品,还包括被配置为接收用于第二并行维护操作的第二现场可替换单元的用户选择的计算机可用程序代码;被配置为基于所述用户选择确定是否满足系统配置标准的计算机可用程序代码;以及被配置为响应于满足系统配置标准的确定,测试所述第二现场可替换单元的计算机可用程序代码。
13.如权利要求12所述的计算机程序产品,其中所述第二现场可替换单元是所述至少一个第一现场可替换单元。
14.如权利要求12所述的计算机程序产品,其中测试还包括向客户端报告测试结果。
15.如权利要求12所述的计算机程序产品,其中确定是否满足系统标准还包括确定所述第二现场可替换单元是否兼容于灵活服务处理器中的固件。
16.如权利要求12所述的计算机程序产品,其中确定是否满足系统标准还包括确定所述第二现场可替换单元是否与相应于所述第二现场可替换单元的冗余现场可替换单元关联,以及基于所述第二现场可替换单元被配置为活动的而满足所述系统配置标准。
17.如权利要求16所述的计算机程序产品,其中所述第二现场可替换单元是支持的现场可替换单元。
18.如权利要求10所述的计算机程序产品,还包括被配置为接收用于第二并行维护操作的第二现场可替换单元的用户选择的计算机可用程序代码;被配置为基于所述用户选择确定是否满足系统配置标准的计算机可用程序代码; 被配置为响应于满足系统配置标准的确定,获得下一未测试的现场可替换单元用于测试的计算机可用程序代码;以及被配置为响应于满足系统配置标准的确定,测试所述第二现场可替换单元的计算机可用程序代码。
19.一种数据处理系统,包括 总线;连接至所述总线的存储设备,其中计算机可用代码位于所述存储设备中; 连接至所述总线的通信单元;以及连接至所述总线的处理单元,其中所述处理单元执行在系统总线上检测硬件接口的计算机可用代码,其中所述处理器执行计算机可用代码以接收所述系统总线上的错误,所述错误识别至少一个第一现场可替换单元;禁止针对所述至少一个第一现场可替换单元的时钟信号的抑制;向合格现场可替换单元(FRU)列表增加所述至少一个第一现场可替换单元的标识符;响应于所述至少一个第一现场可替换单元依赖于支持的现场可替换单元,向合格FRU列表增加至少所述支持的现场可替换单元;抑制针对所述至少一个第一现场可替换单元的时钟信号;以及禁止将所述至少一个第一现场可替换单元标记为不可用于下一初始程序加载。
20.如权利要求19所述的数据处理系统,其中所述处理器还执行计算机可用代码以中止与错误相应的并行维护操作;以及向客户端通知错误。
21.如权利要求20所述的数据处理系统,其中所述处理器还执行计算机可用代码以接收用于第二并行维护操作的第二现场可替换单元的用户选择;基于所述用户选择确定是否满足系统配置标准;以及响应于满足系统配置标准的确定,测试所述第二现场可替换单元。
22.如权利要求21所述的数据处理系统,其中所述第二现场可替换单元是所述至少一个第一现场可替换单元。
23.如权利要求21所述的数据处理系统,其中测试还包括向客户端报告测试结果。
24.如权利要求19所述的数据处理系统,其中所述处理器还执行计算机可用代码以接收用于第二并行维护操作的第二现场可替换单元的用户选择;基于所述用户选择确定是否满足系统配置标准;响应于满足系统配置标准的确定,获得下一未测试的现场可替换单元用于测试;以及响应于满足系统配置标准的确定,测试所述第二现场可替换单元。
全文摘要
公开一种计算机实现的方法、数据处理系统和装置,例如在并行维护操作期间响应于系统总线上的硬件接口错误。服务处理器可接收所述系统总线上的错误。所述错误识别至少一个第一现场可替换单元,并且可禁止针对所述至少一个第一现场可替换单元的时钟信号的抑制。服务处理器向合格现场可替换单元(FRU)列表增加所述至少一个第一现场可替换单元的标识符。服务处理器递归地增加现场可替换单元依赖的至少一个现场可替换单元。服务处理器抑制针对所述至少一个第一现场可替换单元的时钟信号。服务处理器禁止将所述至少一个第一现场可替换单元标记为不可用于下一初始程序加载。
文档编号G06F11/07GK102216903SQ200980145203
公开日2011年10月12日 申请日期2009年11月10日 优先权日2008年11月20日
发明者A·R·塞古拉, A·基塔莫恩, B·W·毕舍普, E·洛, S·R·贝利 申请人:国际商业机器公司

最新回复(0)