以文本方式查看主题

-  广东服务器技术论坛(IBM、HP、DELL、联想)  (http://gzhuize.com/bbs/index.asp)
--  服务器及网络应用杂谈  (http://gzhuize.com/bbs/list.asp?boardid=16)
----  案例分享-看似热造成了灾难  (http://gzhuize.com/bbs/dispbbs.asp?boardid=16&id=6318)

--  作者:aaaa
--  发布时间:2013-1-7 12:19:38
--  案例分享-看似热造成了灾难


最终客户:xxx企业信息中心

集 成 商:广州汇泽信息


故障特征:
在9月份卖他们7台IBM X3650M3服务器。没多久之后,硬盘一直在损坏,已经更换多次。但这次又说有硬盘损坏,而且其中一台4块盘,同时坏了2块,操作系统都已经无法启动了。

判断:可能是硬盘质量的问题导致;或是现场环境因素

响应:在库房领了3块8877的硬盘,立即去客户现场进行更换,关于raid崩溃的解决办法只能到现场再视情况处理了。

拿到硬盘后,立即赶到客户现场:
进入机房后的第一印象:
图片点击可在新窗口打开查看

从图上不难看出,一整柜的IBM设备,有好多黄灯、红灯亮起。同时,感觉屋内燥热。

为了保留第一手资料和判断故障,立即拿起手机对整个机房的布置情况进行拍照。
机房情况如下:


图片点击可在新窗口打开查看

很多UPS电池都在这个小机房里。这些电池发热度可不小



图片点击可在新窗口打开查看
网络设备也不少。

图片点击可在新窗口打开查看


安全设备和磁盘存储一应俱全。

图片点击可在新窗口打开查看


图片点击可在新窗口打开查看

机房左右两侧,各一台立式民用空调。一台温度显示29度,另外一台靠近机柜的空调,显示30度。

图片点击可在新窗口打开查看


这台明显2块300G 硬盘损坏,报警了。

图片点击可在新窗口打开查看


这台,一块硬盘损坏,并报警了。

图片点击可在新窗口打开查看


还有一台,报PS,电源故障。

诊断:
1、 PS电源故障较为容易处理,优先解决。首先检查后面电源插头是否连接良好,发现电源线未插好,重新插好,问题解决。

2、 一块硬盘坏主机处理也相对容易,把报警盘拔出来,替换带去的8877新盘后,raid同步开始,问题解决。注意:拔出来的坏盘,放手上感觉,烫手。

3、 两块盘坏主机处理:
n 首先看屏幕显示,发现主机在UEFI界面不断循环,无法进入操作系统,并通过信息提示发现,raid 5 组offline的状态,初步可以判定raid组已经崩溃;
n 进入raid卡管理界面,确认2和3号槽硬盘报故障;
n 通过IMM,进入后台,提取日志发现:
图片点击可在新窗口打开查看

主机在10月份开始到12月20日,持续在报温度过高!


图片点击可在新窗口打开查看
日志中记录了2槽硬盘是9月22日损坏;


图片点击可在新窗口打开查看
日志中记录了3槽的硬盘是12月30日损坏;由此可以判定,在9月22日出现第一块硬盘损坏到12月30日期间,raid冗余能力已经没有了,也没有得到故障的处理,才导致了最终raid组崩溃。而从日志分析中,更可以得出在12月30日,3槽硬盘损坏之前的2个月内,持续高温的环境也没有得到改善,这是进一步加剧了灾难的发生。

总结:
由于机房环境相对恶劣,管理人员疏忽和管理能力有限,不能及时有效的控制告警,才导致了最终灾难的发生。
而从现场的情况看,客户现场的设备相对齐全,完全可以把重要数据存储在磁盘柜中运行和本机之外做定时数据备份来防止和减小损失。

[此贴子已经被作者于2013-1-7 12:26:08编辑过]

--  作者:aaaa
--  发布时间:2013-1-7 12:26:36
--  
这个实际案例好,大家都应该学习学习
现在有不少公司都买的起服务器,但是在用的过程中往往不会太重视环境
而我们一直提倡的绿色IT似乎被国人所遗忘,于是悲剧发生了,苦逼的售后跑断了腿...