服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
某公司網(wǎng)站服務(wù)器,6塊SCSI硬盤組建raid5磁盤陣列;
服務(wù)器上層:linux操作系統(tǒng)+EXT3文件系統(tǒng)。
服務(wù)器故障&分析:
服務(wù)器在工作狀態(tài)下raid5磁盤陣列中的一塊硬盤由于未知原因離線。因為raid5中的一塊硬盤掉線并不會影響磁盤陣列的正常工作,服務(wù)器沒有出現(xiàn)異常,直到該raid5磁盤陣列中又有一塊硬盤掉線,服務(wù)器癱瘓。
管理員發(fā)現(xiàn)服務(wù)故障后,對raid5磁盤陣列進行了檢查,但是不能確定這兩塊硬盤的離線順序,抱著碰運氣的想法選擇了其中一塊離線硬盤嘗試強制上線操作。將這塊硬盤強制上線后發(fā)現(xiàn)操作系統(tǒng)啟動時出現(xiàn)異常,為了避免再次對數(shù)據(jù)造成破壞,管理員將服務(wù)器關(guān)機,之后沒有進行任何操作。
在過去十多年中,北亞企安數(shù)據(jù)恢復(fù)工程師們經(jīng)常遇到類似的raid5故障:由于發(fā)現(xiàn)不及時或者第一塊硬盤掉線時不在意并沒有及時處理,當(dāng)?shù)诙K硬盤甚至更多的硬盤掉線時,磁盤陣列徹底崩潰。第二塊磁盤掉線后對后離線的硬盤進行強制上線具有一定的可操作性行,但是也有很大的風(fēng)險。
強制上線最好由經(jīng)驗豐富的管理員或者數(shù)據(jù)恢復(fù)工程師進行操作,而且強制上線之前必須做好備份工作。這個案例就是管理員在沒有備份,也沒有搞清楚硬盤離線順序的情況下進行了強制上線操作,最終導(dǎo)致數(shù)據(jù)丟失,服務(wù)器崩潰。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障服務(wù)器內(nèi)的所有硬盤編號后取出,以只讀方式對所有硬盤進行鏡像備份。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進行,避免對原始數(shù)據(jù)造成二次破壞。
2、在鏡像過程中發(fā)現(xiàn)除了已經(jīng)掉線的兩塊硬盤外,其他沒有掉線硬盤存在壞道,由于這些硬盤沒有離線所以暫時沒有進行特殊處理。
3、備份完成后基于鏡像文件分析原raid5磁盤陣列的組成結(jié)構(gòu)并虛擬重構(gòu)raid5環(huán)境。
4、由于管理員對磁盤陣列進行過強制上線的操作,該操作破壞了部分?jǐn)?shù)據(jù)結(jié)構(gòu)。
5、驗證raid5結(jié)構(gòu)后由北亞企安數(shù)據(jù)恢復(fù)工程師手工修復(fù)被破壞的那部分結(jié)構(gòu),導(dǎo)出磁盤陣列內(nèi)的所有數(shù)據(jù)。經(jīng)過數(shù)據(jù)恢復(fù)工程師和管理員的驗證,確認(rèn)恢復(fù)出來的數(shù)據(jù)完整有效。
6、在數(shù)據(jù)恢復(fù)工程師的協(xié)助下,管理員在準(zhǔn)備好的服務(wù)器環(huán)境上重新搭建磁盤陣列并遷移數(shù)據(jù)。
服務(wù)器數(shù)據(jù)恢復(fù)Tip:
1、服務(wù)器發(fā)生故障后,切忌對服務(wù)器進行操作;也不要隨意取出硬盤,以免弄亂盤序。
2、如果需要取出硬盤,標(biāo)記好硬盤的順序之后再取出。
3、服務(wù)器磁盤陣列癱瘓后應(yīng)該立即斷電,不要做同步或強制上線操作,防止數(shù)據(jù)進一步破壞。
4、當(dāng)服務(wù)器由于未知原因的故障而導(dǎo)致系統(tǒng)崩潰或者文件不識別/不可用時,通常不建議盲目地在服務(wù)器上進行數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作。如果確實對自己的數(shù)據(jù)恢復(fù)技術(shù)有自信,必須先對原服務(wù)器的所有硬盤數(shù)據(jù)進行鏡像備份,數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作只能在鏡像文件上進行,避免操作失誤破壞原始數(shù)據(jù),讓后續(xù)的數(shù)據(jù)恢復(fù)難度增加。
審核編輯黃宇
-
硬盤
+關(guān)注
關(guān)注
3文章
1317瀏覽量
57492 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9303瀏覽量
86061 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
585瀏覽量
17630
發(fā)布評論請先 登錄
相關(guān)推薦
評論