Troubleshooting RAIDs:分析和解决RAID故障
- Details
- Category: 制作网络
- Published on Friday, 14 January 2011 03:16
- Written by Super User
- Hits: 2352
广播电视工程领域,数据存储的需求日益增长,而RAID系统是存储中非常重要的一部分,从视频服务器到非线性编辑系统,RAID系统提供了高速的数据传输和容错保护。RAID系统可以由不同的应用配置成不同的类型,本文简要讲述了RAID的常用类型和使用中的一些问题。
RAID保护
RAID-1 使用2个(或更多)磁盘,数据存储在一个磁盘上,并在另一个磁盘上镜像。这种方式提供了完整的数据保护,但是需要双倍的存储空间。
RAID-5 将数据存储在多个磁盘上,称之为striping条带,并将冗余的数据存储在每个磁盘上,如果一个磁盘发生故障,新的磁盘被插入,那么丢失的数据可以从其 余的磁盘上重建在新的磁盘上。当只有一个磁盘发生故障,数据是不会丢失的,如果在第一个磁盘上的数据被重建之前,第二个磁盘发生故障,那么RAID上所有 的数据会丢失。RAID-5 的优点就是不需要双倍的存储空间,只需要比实际存储需要的磁盘数量多一块。举个例子,构建一个实际存储数据量为2TB的RAID-5,每块磁盘为 500GB,则需要5个磁盘,其总的磁盘空间为2.5TB。
RAID-10是RAID-1和RAID-5的结合,一对磁盘互为镜像,然后一组这样的镜像磁盘做RAID-5,这种方式下,一半的磁盘发生故障,系统也不会丢失数据。RAID-10提供了完整的容错保护和高性能的数据传输。
NAS系统
如 今,在众多的存储解决方案中,有一种高性价比的NAS系统(network attached storage),NAS设备通常用于普通的办公网络,也可以用于视频服务器存储。NAS系统易于使用和配置,因为它可以直接连入网络,并通过其它计算机 上的浏览器来控制。NAS系统实际上就是独立的计算机,专门用来快速、可靠的传输数据,它本身设计的很可靠,但也有发生故障的时候,如果管理员不熟悉它的 工作原理,遇到故障的时候很难修复。
举个例子,有一家机构,NAS被连入视频服务器,一次RAID中的一块磁盘发生故障,工程师认为这应 该可以很容易的解决,仅仅把故障磁盘替换即可。由于没有可用的新磁盘,他便向NAS系统的制造商订购了一块,到货后便迅速的安装上去,但是RAID系统并 没有在新磁盘上重建数据。接着制造商寄出了另一块新磁盘,然而结果和第一次一样,系统识别出了新磁盘,但不使用它。工程师检查之后认为问题出在RAID控 制卡上,于是联系控制卡制造商,要求寄一张新的RAID卡,然而工程师拿到的RAID控制卡不是原先的那种类型。再经过几次联系之后,工程师终于拿到了正 确的RAID控制卡并安装好,但依旧无法使用新磁盘,现在NAS制造商和RAID控制卡厂商都被难住了。经过2个星期之后,在尝试了3张不同的RAID控 制卡和3块磁盘后,工程师终于了解了RAID系统的工作原理,数据被重建,问题解决。
深入RAID系统
RAID 系统初始化时,会将元数据(metadata)写入每个磁盘的Block 1。这样做是为了把磁盘识别为自身RAID的一部分,因为市面上有很多不同的RAID系统,每家RAID控制器制造商都有自己的元数据结构,制造商甚至在 不同的生产线上更改元数据结构。这就意味着,如果一家广播电视机构有2个RAID系统,并且它们的RAID控制器由同一家公司生产,交换两个RAID系统 上的磁盘(可能是意外情况下),控制器读取磁盘上的元数据,发现各自插入的磁盘上的元数据属于另外一个RAID系统,数据就不会被重建。
在上面提到的例子里,订购的的磁盘上面都有元数据,如果它们的元数据来自不同的RAID控制器制造商,NAS设备便不会识别,因为NAS设备知道磁盘是属于另一个RAID陈列上的,于是不会向它写入数据。就算格式化磁盘,也不能抹去Block 1的元数据。
接 上面的例子,在RAID控制器的BIOS里,工程师看到有一屏信息,显示有2个阵列,一个是阵列0(degraded),另一个是阵列 1(unusable),工程师需要做的就是删除阵列1,阵列1无法使用是因为它仅仅只有1块磁盘,正是那块新插入的磁盘,这样新磁盘才能被阵列0重建数据。
广播电视工程系统日益复杂,有些大的机构有独立的IT部门,可能遇到过此类问题。但也有很多小的机构没有IT部门,完全依赖工程部门提供技术支持,这就要求我们的工程师必须深入学习,来适应日益进步的现代广播电视技术。
参考:BroadcastEngineering.com

