如何排除服務器中(zhōng)RAID 5故障

由于技術的不斷進步,不同型号的服務器出現RAID 5故障後,處理方法也不同。

現在大(dà)型應用程序的網絡拓樸結構,一(yī)般都采用C/S結構或B/S結構,至少需要一(yī)台裝有大(dà)型數據庫的服務器安放(fàng)于中(zhōng)心機房。基于對服務器安全性與可靠性的考慮,通常會對服務器的磁盤采用磁盤陣列RAID(Redundant Array of Inexpensive Disk)進行磁盤冗餘備份。其中(zhōng)RAID 5陣列級别爲無獨立校驗磁盤的奇偶校驗磁盤陣列,采用數據分(fēn)塊和獨立存取技術,能在同一(yī)磁盤上并行處理多個訪問請求,同時允許陣列中(zhōng)的任何一(yī)個硬盤出現故障。

實際應用中(zhōng),由于某些不可避免的客觀原因,可能會造成一(yī)些陣列故障。最常出現的狀況就是硬盤自行脫機,聯機狀态顯示爲DDD(Defunct Disk Drive,無效磁盤驅動器),硬盤出現物(wù)理故障或邏輯故障。如果是物(wù)理故障,隻有進行硬盤更換;如果是邏輯故障,可以通過有針對性的技術修複,恢複硬盤的在線狀态,繼續保持其原始陣列中(zhōng)的硬盤數據條帶化分(fēn)布狀态,延續數據存儲體(tǐ)系的一(yī)緻性。

但是,對HP的一(yī)些老服務器(如HP LH6000)數據的恢複與新服務器(如HP ProLian系列服務器)的數據恢複是不同的。所以不同的服務器對RAID 5故障的處理也是不同的。曾接觸過兩台服務器因意外(wài)斷電(diàn)而造成的RAID 5陣列卡數據故障,由于采用了不同的策略而解決了問題。

故障修複

一(yī)台是HP LH6000的服務器,4塊18GB的硬盤做成RAID 5磁盤陣列,其陣列卡是NetRaid;另一(yī)台是HP ProLian ML370服務器,4塊146GB的硬盤做成RAID 5磁盤陣列,其陣列卡是Smart Array 642并帶有熱備份硬盤(Hot Spare)。兩者操作系統都爲Window 2000,數據庫是Server 2000。

HP LH6000的故障如下(xià): 一(yī)塊硬盤紅燈閃亮,機器還在正常運行,但沒有多久,系統就不能正常運行,這時才發現另一(yī)塊硬盤的紅燈也在閃亮。

解決辦法如下(xià):

1.啓動服務器,自檢至陣列時按Ctrl+M進入NetRaid管理程序。查看陣列信息,發現硬盤狀态爲Failed,運用修改配置将一(yī)硬盤強行設置成OnLine。重新啓動服務器,在進入系統前的硬件自檢時無效,啓動失敗。

2.啓動服務器,自檢至陣列時按Ctrl+M進入NetRaid管理程序。選擇磁盤陣列,将原來OnLine挂起來的硬盤手工(gōng)Fail掉,然後再把另一(yī)塊Failed的硬盤手工(gōng)設置成OnLine,重新啓動服務器就可以進入系統了。

3.查看系統及數據庫都運行正常後,再進陣列配置工(gōng)具把Failed的硬盤手工(gōng)設置成Rebuild,100%完成重建後再重啓服務器,所有的陣列及系統都恢複原狀了。

另一(yī)台運行ERP系統的服務器(HP ProLiant ML370),由4塊146GB熱插拔硬盤通過RAID卡(Smart array陣列卡)配置成一(yī)台具有RAID 5級的磁盤陣列。其中(zhōng)一(yī)塊硬盤在運行過程中(zhōng)突然出現故障。服務器RAID 5自動啓用熱備份硬盤(Hot Spare),對損壞硬盤進行邏輯替代。整個硬盤的數據訪問任務仍然完整地運行在原來的讀寫進程序列中(zhōng),應用程序和數據庫沒有發生(shēng)影響。

通過HP自帶的ACU工(gōng)具查看硬盤狀态進行檢查,發現紅燈示警的硬盤處于脫機狀态。如果HP ProLiant服務器中(zhōng)的Raid 5有兩塊硬盤出現亮紅燈時,表明系統已經崩潰,數據庫也就不能訪問,但系統不會自動關機。當第二塊硬盤亮紅燈後,用常規的手段是不能恢複數據的,隻有付費(fèi)找專業的第三方數據恢複公司恢複數據。

因此,對惠普老型号HP LH6000系列服務器來說,陣列的設計方面與現在HP ProLiant系列服務器的陣列有很多不同。就操作方法看,HP LH6000服務器的陣列操作方法有很多可選項,包括陣列失敗後可以重新删除陣列并重建等,初始化也是手工(gōng)選擇的。但是HP ProLiant系列服務器陣列的初始化是在配置陣列後自動在後台執行的,所以ProLiant系列服務器在陣列出錯後是不能重配陣列的。

HP LH6000服務器會因其他意外(wài)的原因導緻陣列中(zhōng)的磁盤出現掉線現象,可讓維護人員(yuán)手工(gōng)選擇用Online或Offline、Rebuild等來恢複數據。但是現在的HP ProLiant系列服務器在陣列中(zhōng)不會再出現像老的服務器那樣有磁盤掉線的現象,所以硬盤亮紅燈的時候,這塊硬盤基本上是損壞了需要更換。當然可以選擇熱插拔硬盤來重建(Rebuild),看硬盤還能不能再用一(yī)段時間。

做好技術後備

從以上兩個例子可以看出,同一(yī)品牌、不同系列的服務器因其内含技術的不同,其Raid 5磁盤故障的排除也是不同的。但經過重建(Rebuild)數據後,數據被拯救了,從中(zhōng)可以得出以下(xià)經驗:

我(wǒ)們認爲任何先進的技術手段都不是萬無一(yī)失的。如果要确保數據安全,就一(yī)定要做好備份工(gōng)作,最好每天做一(yī)次數據庫的異地備份。至少備用一(yī)塊新硬盤。需要指出的是,加入陣列的硬盤必須大(dà)于或等于故障硬盤的容量。

如果條件允許,推薦“RAID 5+熱備盤”的陣列創建方案。這樣在數據丢失前,我(wǒ)們有兩次更換硬盤的機會。對于一(yī)般的應用,隻用RAID 5即可,可以同時提供數據的存取性能、可靠性和最大(dà)的磁盤空間。

管理員(yuán)必須經常觀察陣列的狀态,包括查看磁盤陣列的黃色警告燈和管理軟件裏的驅動器狀态。出現故障,及時排除。無論是什麽級别的陣列,在排除故障前,都應做好數據備份。