[转帖]系统频繁宕机解决方法
我的系统(H85)前一段连续几天宕机器,一个星期宕了4次. LED 报 888 102 300 0C0,显示是软件或硬件错误引起宕机,查guide 300显示 软件在处理器里中断. errpt里显示有大量的硬盘临时及部分永久错误,我开始以为硬盘有问题,于是做在线diag和停止机器做standalone diag,都也没什么错误. 在standalone模式下做硬盘的表面测试也显示没有问题. <br>我还是以为硬盘可能什么其他没有检测出的问题导致了系统宕机. 于是更换了硬盘. 但是过了两天系统又开始报大量硬盘临时错误并宕机. 当时有几个情况引起我的注意,客户说去年这个机器也莫名气妙宕了好几次机,而且有很长一段时间机房的空调有问题,温度很高. 于是我就检测了机器的温度环境(/usr/lpp/diagnostics/bin/uesensor -l或采用diag里的task选项),发现这台机器温度比其他小型机要高出近10度. IO 柜大约36-37度,CEC为28-30度, 而其他机器大约为22-27度. 且该机器放置紧贴在另一台机器的下面. 下面是7133存储,S00机柜全部充满. 但该机器电源,风扇等冷却系统正常.系统没有相关错误且该机器刚刚做过清洗(该故障在清洗之前就一存在). 现在该机房已经安装新空调,温度比较正常. 检测该机器温度为24-30度,其他机器22-24度,最高的一台温度为27-32度,主要是IO柜高为32度. 该机器也将近一个月没有宕机了.<br>
<br>
因此我怀疑可能是机房温度太高并且该机器放置的位置导致他散热不通畅, 从而导致主机温度太高超过正常工作温度(10-40度)从而导致系统宕机. <br>
<br>
这是我以前写的分析报告,我开始也以为是温度引起的问题. 到事实可能不是这样的. 以下是后来写的报告..<br>
<br>
4.21 10:00左右客户通知我们H85机器宕机,LED显示 888 102 300 0C0 代码. 系统已经HA切换到另一台H80机器. 因此前该H85机器出现过多次宕机现象,LED代码显示一样为8881023000C0,每次系统均报大量硬盘临时及永久硬件错误,开始怀疑是内置硬盘故障,更换硬盘后故障也出现过几次且硬盘表面测试正常,后来发现该H85机器温度太高接近40度的正常工作温度上限,当时怀疑是机器温度太高导致系统异常宕机.建议用户修复机房空调后该机器正常工作了近2个月没有出现宕机故障. 因此这次又出现宕机故障,一开始怀疑是否又是温度问题或者是硬盘问题. <br>
不久客户将该H85重新启动并将HA切回H85. 但过了一段时间该机又宕机了,客户又将H85重新启动并回切,据客户反映这次HA好象没有完全成功切换.因为在电话中无法详细处理且我司工程师已在赶赴现场的途中,因此让客户保留现场等待我司的处理.<br>
到达现场后将H85重新启动发现系统报大量硬盘错误,且HA启动不正常.于是又将H85再次启动,这时系统已不能启动,LED代码显示引导记录丢失. 由于该机器此前的宕机故障现象,没有仔细考虑可能是引导列表丢失的情况,认为可能是硬盘损坏导致引导记录丢失,为保险起见没有重建引导记录而是直接为客户更换硬盘. 待更换硬盘后用系统备份磁带恢复时发现该备份磁带已经失效,于是只好从另一台与该H85做HA的H80机器备份数据并恢复到H85上.在恢复的过程中发现系统无法恢复到hdisk0上,报"无效的磁盘位置"类似的错误. ,我怀疑是2台机器内置硬盘安装的SCSI ID不一样造成,H80上硬盘是SCSI ID 4因此备份磁带记录的也是ID 4,而H85实际安装的位置是SCSI ID 8(H85可以安装2块内置硬盘,SCSI ID 分别为4,导致恢复时报类似错误,因此我想通过恢复安装选择项中的改变安装磁盘及方法的方法让系统识别在ID8上的hdisk0磁盘.但是当选择了修改安装方法的选择项后发现无法像原来一样进一步修改安装选择项,只显示可以安装在hdisk0上. 当时也没多想,就直接恢复安装了,后来通过SMS菜单才发现这个hdisk0根本就不是内置硬盘而是7133上的SSA 逻辑磁盘.这样还造成了7133上一部分大约半天数据的丢失. 为防止再次上面的错误,我们将H85上内置硬盘位置更改为与H80一样的SCSI ID4并将H85与7133断开进行恢复,恢复成功后系统成功启动一次后又再次报找不到引导记录无法启动. 为防止再次上面的错误,我们将H85上内置硬盘位置更改为与H80一样的SCSI ID4并还安装了另一块ID8的测试硬盘.并每次恢复前进入SMS菜单确认,此时发现系统启动设备根本就没有找到内置硬盘,反复启动几次发现有时能找到2块内置硬盘中的某一块,有时一块也找不到.这时才发现问题可能出在这个启动列表丢失的问题上,结合以前该机器的宕机故障,认为可能是连接内置硬盘的SCSI线缆有问题(尽管一般认为这种可能性很小)或者存储bootlist的NVROM后系统电池有问题. 于是在H80上恢复7133损失的数据并用HA将全部应用切在H80上运行后,等待公司备件.<br>
备件到达后更换SCSI线缆后反复启动机器,启动列表不丢失.恢复系统数据更改同步HA后系统正常.<br>
<br>
至此该问题才算解决. 从此例可以看出,有些认为不可能的故障也能导致莫名其妙的问题(如此例的SCSI线). 不可存侥幸心理必须逐个排除!! <br>
<br>
页:
[1]