以文本方式查看主题

-  广东服务器技术论坛(IBM、HP、DELL、联想)  (http://gzhuize.com/bbs/index.asp)
--  服务器及网络应用杂谈  (http://gzhuize.com/bbs/list.asp?boardid=16)
----  那些年运维遇到的悲惨服务器  (http://gzhuize.com/bbs/dispbbs.asp?boardid=16&id=5280)

--  作者:testaa
--  发布时间:2012-7-14 16:01:37
--  那些年运维遇到的悲惨服务器
      2012年5月11 16点00分,接到xx科技部的电话,告诉我IBMX346的服务器同时坏了2块SCSI146G硬盘,现在系统进不去了.问我周六周日能否去修复,和我的领导沟通后明确要周一才能拿到配件上门服务.
    周一11点才拿到2块SCSI 146G硬盘,匆忙赶去该行,还好不要数据恢复,估计不是很重要的业务,吃完中饭之后,开始重新安装系统,6块146G硬盘,5块做RAID 5,还有1块做热备,这种服务器应该有快10年了,还在继续使用,也不知道领导是怎么想的,就不怕系统硬件出问题啊? 到下午2点左右,系统也弄好了,剩下的事情就可以交给他们做了.我正想回公司,匆忙有人跑来告诉我,又有一台服务器坏了,我的天,今天是怎么回事啊.
     跑过去一看,又是一台IBMX346服务器,简单了解了一下情况,说是在KVM操作的时候,系统没有反应了,好像死机了,然后就重起了,结果重起之后,发现找不到硬盘了,再仔细一看,发现RAID卡找不到了.这个是生产系统,随时要用的,让我赶紧想想办法先弄好,还和我说这个没有备份的,就只有这台生产机.和该行科技部的人员说,要不从其它同型号不用的服务器上拆块RAID卡接到这台服务器上,问我要多少时间,我说1个小时差不多了,他们打个电话问了其它技术人员,询问把硬盘拆到其它同型号服务器上的可行性,技术上说是行的,只要手动ONLINE就行了.
    他们马上发通知这台服务器出故障了,我断电后,拆开这台坏的服务器,发现RAID卡上电池都鼓包了,RAID带电池那端都变形了.从同型号的机子上拆了一块卡过来,接上PS/2的键盘鼠标后,用SERVERRAID 8.4引导,结果出现对话框,好几个选项,选择F4从磁盘引导,F10什么都不改变,结果键盘怎么按都没有反应,当时以为是键盘有问题,结果坏了一块键盘还是一样.这个办法不行,只好把6块硬盘按顺序标好,接到同型号的不用服务器上(4块73G硬盘,做RAID 5),装上光盘,引导之后,发现有4块硬盘OFFLINE,一个逻辑盘状态失败,F10什么都不改变,光盘引导进入之后,发现0,1,2,3,都是OFFLINE,还有4,5两块是REDY状态,想想刚才的电话交流,我也认为引导之后手动ONLINE就可以了.
     悲剧就从这个时候开始了,他们给我的是误导我的提示.我想想6块盘做RAID 5,已经有2块REDY,再弄3块就可以引导系统了,于是手动把前面0,1,2三块盘设置成ONLINE,奇怪了,为什么第3块不能ONLINE呢?当时也没有多想,直接重起.结果系统没有起来,直接提示错误的操作系统,我一看坏事了,光盘引导之后,进入后发现前面3块在做RAID5,已经到了1%,马上关机,这时候科技部的人也有些担心了,问我公司还有没有人会弄,打个电话问问,我还是不死心,在试着操作3号盘,显示在rebuilding,我的天,这个时候一子下明白刚才手动ONLINE是做什么了.这个时候经理打电话过来了,问我怎么回事了,估计已经有人打电话给经理了,我把大概情况说了一下,经理就说我了,什么不好操作,去动他的硬盘,我只好说以前他们都要求我帮他们操作过很多次了,从这台服务器几块盘接到其它服务器上直接导入RAID就行了,这次是意外失手.经理说我:常在河边走,哪有不湿鞋的.一会带个工程师会过来看看.该行的科技人员问我数据会不会丢失,我用那种不是很肯定的语气和她说,应该不会的.她在那里双手祈祷,千万不要丢失啊.
    关机之后,我理了一下思绪,想想领导所说的话,如果你提前打电话给我,告诉我要移动硬盘,我肯定不会同意你这么操作的,拆硬盘到其它服务器会有风险的,还是高风险.唉,这种事情怎么说呢,如果操作的话,你好我好大家都好,如果失败了,责任就全部都是公司的,刚才问过相关人员了,这个还好不是非常重要的生产系统,如果是生产系统,那就问题大了,不仅行里的人员会受处分,领导也会有麻烦的.相关责任人员弄不好要受刑事责任的.越想越觉得害怕啊.现在真是的如坐针毡啊,就想经理他们早点到.
    经理和工程师很快到了,我和工程师简单说了一下过程,他说本来你这样操作风险就是很高的,不过你只要操作小心,一般也没有什么大的问题,你现在的问题是属于2次破坏,你现在的阵列是从后来RAID卡拷贝过来的,这块卡原来是4块做RAID5,不是这6块盘自带的阵列,如果你选择从6块硬盘拷贝到阵列卡,那就没有什么问题.如果你把后来那块的配置信息全部清干净了,相当于一块新盘,就只能读6块盘导入阵列,这就没有问题,现在看看原先这块卡的阵列信息在不在,如果不在就只有数据恢复了.结果把单把6号盘接到原来的卡上,读取阵列信息失败.
    这个时候已经晚上10多点了,从行里出来,还下着雨,心情不爽啊.坐车回车,到家11点多了.迷迷糊糊中感觉没睡几个小时就天亮了,第二天来到公司之后,网上搜索了一下数据恢复,把情况和他们沟通了一下,很多数据恢复的人在线都告诉我,数据可以95%恢复,不过价格也不便宜,3000吧,有的更夸张,北京的工程师说上门可以,飞机实报,3000保密费,5000数据恢复.这让我又看到了希望.赶紧从行里把6块盘拿出来了,拿到指定的数据恢复点.简单和数据恢复的工程师沟通了一下,说是先要把6块盘按顺序读到文件里,然后他们在分析.这6块盘从下午3点开始弄,一块盘差不多要80分钟,最后一块盘物理上有些问题,读了很长时间,到晚上12点还没有读好,实在受不了,就让它自己读吧,各自回家,到家都2点了,洗洗睡了,这期间行里的人也急了,到现场询问情况.
    周三,正常时间到了数据恢复那里,问工程师,能有多少把握,他说需要分析,要我耐心等,大概到了10点的时候,行里的人也来了,这个时候,情况有了好的转变,数据都分析出来了,C盘488个G,D盘195个G,里面大部分的东西都在,行里的人急着要SQL的数据库文件,先拷了这些东西回去.剩下的东西,我准备先拷D盘的东西,到晚上8点的时候,D盘拷完,剩下的C盘拷1个晚上,明天应该差不多了吧.周四过去一看,才拷了10%,晕啊,和行里再沟通了一下,说是SQL的东西全部要,然后下午行里又来人了,把需要的东西都拷走,基本到下班,所需要的东西都弄出来了.为了安全考虑,6个镜像文件没有删除,都行里确认没有问题了,再删数据文件.
     只到此时,好不容易终于松了一口气,几天来的紧张气氛在这一刻终于释放.看看天空,觉得挺蓝,心情不错,看看其它人都觉得亲切啊.都说很多时候都是不经一事,不长一智.把它记录下来,提醒自己时刻小心,千万不可大意,没有十足的把握不要操作,不然要创出大祸。