服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
DELL POWEREDGE某型號(hào)服務(wù)器中有一組由6塊SCSI硬盤組建的RAID5陣列,LINUX REDHAT操作系統(tǒng),EXT3文件系統(tǒng),存放圖片文件。
服務(wù)器故障&分析:
服務(wù)器raid5陣列中有一塊硬盤離線,管理員沒有及時(shí)發(fā)現(xiàn),直到服務(wù)器raid5陣列中的另一塊硬盤掉線,raid5陣列癱瘓,服務(wù)器無法正常工作。管理員聯(lián)系DELL售后,DELL工程師建議將其中一塊離線硬盤強(qiáng)制上線并強(qiáng)調(diào)了該操作的風(fēng)險(xiǎn)性。和領(lǐng)導(dǎo)的商量后,管理員將其中的一塊離線盤強(qiáng)制上線。上線過程中發(fā)現(xiàn)服務(wù)器操作系統(tǒng)啟動(dòng)異常,管理員于是馬上關(guān)閉服務(wù)器。
此類故障非常普遍。RAID5陣列僅支持一塊硬盤掉線的冗余保護(hù),如果有兩塊硬盤離線,RAID5陣列便會(huì)崩潰。為了保護(hù)數(shù)據(jù),RAID控制器廠商的設(shè)計(jì)思路為:只要有硬盤下線,RAID控制器是不會(huì)自動(dòng)讓離線硬盤上線的。由于RAID控制器的高敏感度,通常掉線的硬盤大概率不會(huì)存在嚴(yán)重的物理故障,甚至很多離線硬盤是完好的(掉線原因可能是信號(hào)受阻、電源波動(dòng)或控制器BUG等)。正如DELL工程師強(qiáng)調(diào)的,強(qiáng)制上線有較大的風(fēng)險(xiǎn)性,如果強(qiáng)制上線出現(xiàn)問題,RAID控制器會(huì)自動(dòng)做出某些不可逆操作。這個(gè)時(shí)候進(jìn)入操作系統(tǒng),文件系統(tǒng)的不一致會(huì)造成系統(tǒng)進(jìn)行自我修復(fù),然后導(dǎo)致所有的硬盤數(shù)據(jù)不一致。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障服務(wù)器中所有磁盤編號(hào)后取出,以只讀方式做扇區(qū)級別的鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,備份后將所有磁盤按照編號(hào)還原到原服務(wù)器中。在備份過程中發(fā)現(xiàn)多塊硬盤存在壞道,只是RAID控制器沒有檢測到,暫時(shí)沒有下線。
2、基于鏡像文件分析原RAID5陣列的結(jié)構(gòu),根據(jù)分析出來的RAID結(jié)構(gòu)相關(guān)信息構(gòu)建虛擬RAID。
3、驗(yàn)證RAID結(jié)構(gòu)的正確性,北亞企安數(shù)據(jù)恢復(fù)工程師修復(fù)部分被破壞的結(jié)構(gòu)后將數(shù)據(jù)導(dǎo)出到另一存儲(chǔ)中。
4、在原服務(wù)器上搭建新的RAID并將數(shù)據(jù)遷移至新RAID中。
5、用戶通過抽樣檢測,絕大部分圖片文件可以正常打開,只有有極少數(shù)文件有問題,用戶認(rèn)可數(shù)據(jù)恢復(fù)結(jié)果。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9303瀏覽量
86061 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
585瀏覽量
17631 -
磁盤
+關(guān)注
關(guān)注
1文章
380瀏覽量
25276 -
RAID5
+關(guān)注
關(guān)注
0文章
122瀏覽量
12767
發(fā)布評論請先 登錄
相關(guān)推薦
評論