时间:2013-01-08
导读:在9月份卖他们7台IBM X3650M3服务器。没多久之后,硬盘一直在损坏,已经更换多次。但这次又说有硬盘损坏,而且其中一台4块盘,同时坏了2块,操作系统都已经无法启动了。
新闻中心
最终客户:xxx企业信息中心
集 成 商:广州汇泽信息
故障特征:
在9月份卖他们7台IBM X3650M3服务器。没多久之后,硬盘一直在损坏,已经更换多次。但这次又说有硬盘损坏,而且其中一台4块盘,同时坏了2块,操作系统都已经无法启动了。
判断:可能是硬盘质量的问题导致;或是现场环境因素
响应:在库房领了3块8877的硬盘,立即去客户现场进行更换,关于raid崩溃的解决办法只能到现场再视情况处理了。
拿到硬盘后,立即赶到客户现场:
进入机房后的第一印象:
从图上不难看出,一整柜的IBM设备,有好多黄灯、红灯亮起。同时,感觉屋内燥热。
为了保留第一手资料和判断故障,立即拿起手机对整个机房的布置情况进行拍照。
机房情况如下:
很多UPS电池都在这个小机房里。这些电池发热度可不小
网络设备也不少。
安全设备和磁盘存储一应俱全。
机房左右两侧,各一台立式民用空调。一台温度显示29度,另外一台靠近机柜的空调,显示30度。
这台明显2块300G 硬盘损坏,报警了。
这台,一块硬盘损坏,并报警了。
还有一台,报PS,电源故障。
诊断:
1、 PS电源故障较为容易处理,优先解决。首先检查后面电源插头是否连接良好,发现电源线未插好,重新插好,问题解决。
2、 一块硬盘坏主机处理也相对容易,把报警盘拔出来,替换带去的8877新盘后,raid同步开始,问题解决。注意:拔出来的坏盘,放手上感觉,烫手。
3、 两块盘坏主机处理:
n 首先看屏幕显示,发现主机在UEFI界面不断循环,无法进入操作系统,并通过信息提示发现,raid 5 组offline的状态,初步可以判定raid组已经崩溃;
n 进入raid卡管理界面,确认2和3号槽硬盘报故障;
n 通过IMM,进入后台,提取日志发现:
主机在10月份开始到12月20日,持续在报温度过高!
日志中记录了2槽硬盘是9月22日损坏;
日志中记录了3槽的硬盘是12月30日损坏;由此可以判定,在9月22日出现第一块硬盘损坏到12月30日期间,raid冗余能力已经没有了,也没有得到故障的处理,才导致了最终raid组崩溃。而从日志分析中,更可以得出在12月30日,3槽硬盘损坏之前的2个月内,持续高温的环境也没有得到改善,这是进一步加剧了灾难的发生。
总结:
由于机房环境相对恶劣,导制机房的温度过高,管理人员疏忽和管理能力有限,不能及时有效的控制告警,才导致了最终灾难的发生。
而从现场的情况看,客户现场的设备相对齐全,完全可以把重要数据存储在磁盘柜中运行和本机之外做定时数据备份来防止和减小损失。
- 2017-06-01主流超融合基础架构厂商产品与技术比较分析
- 2017-06-01超融合基础架构技术的发展和具体应用场景
- 2017-06-01超融合基础架构与X86融合架构的区别和优势解析
- 2017-06-01了解超融合主要产品区别、具体应用及相关技术
- 2017-03-03“商品化”的超融合架构,成产业爆发点
- 2016-05-20企业WEB应用防火墙解决方案
- 2016-04-27web网站网络安全防护解决方案
- 2016-04-15企业防火墙解决方案-具体案例
- 2016-02-03企业防火墙高可靠组网解决方案
- 2015-02-03网络安全的未来Imperva谈WAF 防火墙应具备的十大特性