以文本方式查看主题 - 广东服务器技术论坛(IBM、HP、DELL、联想) (http://gzhuize.com/bbs/index.asp) -- IBM存储(磁盘阵列)论坛 (http://gzhuize.com/bbs/list.asp?boardid=8) ---- IBM DS4300存储灾难恢复问题解析 (http://gzhuize.com/bbs/dispbbs.asp?boardid=8&id=6384) |
-- 作者:tangcx -- 发布时间:2013-3-26 18:50:38 -- IBM DS4300存储灾难恢复问题解析 公司的一个IBM DS4300的老存储在十一前突然坏了,阵列挂载的数据出现丢失,比较严重,解决过程如下,特此记录。 硬件环境是:IBM DS4300存储,分了2个array,每个array都做raid5,并且各有一块热备盘。每个array都划分了2个逻辑盘,其中array2的一块380G的逻辑盘给了小型机双机系统做共享盘,双机上是AIX+ORACLE10G。双控(A控突然坏了,B控却不能接管A控的LUN,致使一部分重要数据无法寻到)。经过Server Raid管理软件分析阵列日志信息,发现2号盘在11年8月份就出现异常,不参与RAID工作,1号盘在近期才出现错误。经过对1、2号盘进行检测和镜像,发现2号盘有少量坏道,1号盘能正常读取。 恢复: 经过对1号盘和2号盘进行检测和镜像以后,我们尝试把1号盘留在DS4300阵列上,把2号盘拔出来,然后在Server Raid管理软件中尝试各种办法使1号盘状态变成ONLINE状态,最后终于把1号盘变成ONLINE,于是尝试在AIX下查看相关VG信息,发现VG信息已经被破坏。数据恢复陷入下一步困境,经过对比1号盘和2号盘的头部信息,发现2号盘的头部有相关VG信息,于是把2号盘VG信息Copy到1号盘相应位置,再次在AIX下查看VG信息、LV信息,这次VG信息完好,文件系统mount顺利,尝试启动oracle服务,发现oracle启动不了,报redo1.log文件错误,最后经过几番努力,oracle终于能起来了,赶紧exp出oracle中的数据。到此数据恢复成功! 经验总结: DS4300上更换硬盘特别要注意,最好更换型号和固件版本跟原来一样的硬盘,本案例原2号盘坏过,如果需要替换原2号盘,那么新盘的型号和固件版本都需要跟原来的硬盘一样,否则新换的硬盘在DS4300上运行时会不稳定,并容易出现掉线的现象。DS4300对硬盘固件版本匹配要求比较高,更换硬盘千万要注意固件版本匹配问题。 还有LVM信息是本恢复的关键,1号盘LVM信息被破坏,我从2号盘看到良好的LVM信息,COPY到1号盘的相应位置,才能使整个恢复得以顺利进行。
另问题: 一个ds43000,分了2个array,每个array都做raid5,并且各有一块热备盘。每个array都划分了2个逻辑盘,现在array2的一块硬盘闪黄灯了,目前还能运行。在aix下查errpt也是报hdisk3出错。问:1、热备盘这时是自动顶上了,还是要手动配置?2、可以在线直接换这块坏的盘吗?3、换的盘这时是做热备好,还是把原来的热备盘继续做热备?我觉得磁盘阵列的可靠性也不太高啊,老是坏,不是电池坏,就是硬盘坏,让人提心吊胆的。 此例中由于RAID本身并没有损坏,不需要对每个物理硬盘进行单独镜像,只需要把报错的那个磁盘所在的LUN镜像出来就行。镜像的方法有两种:一种是在linux下用dd 命令把lun镜像到别的存储空间上,另一种是把要恢复的LUN切换到Windows上,然后通过Winhex工具对硬盘进行镜像。镜像完成以后,数据恢复的重点就是分析XFS文件系统结构,把数据提取数来。 可以通过达思 D-Recovery For XFS数据恢复软件,对每个镜像出来的LUN进行扫描,收集XFS文件系统信息(superblock,inode,目录、文件名等),最终把数据完全提 取出来。当然,如果数据破坏不严重,可以把分区表或者superblock信息还原到出问题之前的状态,然后挂回Linux环境,就能直接正常mount 文件系统。数据恢复最后结果是:出问题的LUN通过更改分区表或者superblock就能正常mount,还有一个LUN需要D-Recovery For XFS工具导出数据,最后实现非常完美的恢复。 补充: 补充: 更换损坏的控制器 DS4300双控制器,发现A控无法online,且主机接口无光,网卡灯也不亮,于是在没有控制器备件的情况下就先关主机、存储,更换了电池,保证B控恢复正常,但是A控还是不行。 存储情况: 操作的大概步骤: 问题:
|