1.1. 在当今的工作环境中,磁带机是最古老的数据保护设备
1.1.1. 更老的打孔卡与打孔带,然而对于服务器所存储的程序与数据来说,第一个真正得以流行的备份手段确实是磁带机
1.1.2. HP的服务器装有能够读取4毫米DDS磁带的磁带机
1.1.2.1. 磁带的容量是2GB、8GB或24GB
1.1.3. Digital(也就是DEC)的服务器装有TK50磁带机
1.1.3.1. 磁带的容量只有94MB
1.1.4. AT&T的3B2计算机使用QIC-80磁带机
1.1.4.1. 磁带只能存80MB数据,而且还不够快
1.1.5. 大型机用的是九轨磁带机
1.2. 无论在哪种情况下,磁带的成本几乎都要低于其他方案
1.2.1. 只是现在的数据保护产业已经不再将磁带机视为主要的备份目标了
1.3. 要点
1.3.1. 如果你打算长期保存数据,那必须把准备相应的磁带机也纳入工作流程
1.3.1.1. 磁带里记录着哪些内容,当然应该由你来维护
1.3.1.2. 把能够读取这些内容的磁带机准备好,也是你的责任
1.3.2. 磁带机不用像磁盘驱动器那样整天开着
1.3.2.1. 你可以把它们的电源拔掉,并将其放在安全的地方,等需要用时再拿出来
1.3.2.1.1. 它们基本上不会有什么问题
1.3.3. 就算有一盘30年前录制的磁带,能找到一款能够读取该磁带的磁带机
1.3.3.1. 目前还是有一大帮人在维护着老式的磁带机
1.3.4. 就算你找不到这样的磁带机,也还是可以寻求某种服务,让该服务的提供商替你把磁带中的内容读出来
1.3.5. 需要在磁带上长期保存数据的人,可能偶尔会决定把这些数据刷新(也就是转录)一遍
1.3.5.1. 把数据转移到更新、更快的磁带上,从而淘汰那些旧式的磁带与磁带机,并由此节省存储磁带的费用
1.3.5.2. 在商用环境中,每盘磁带每年的保管费是4美元,如果你有10000盘400GB的磁带,那么每年的保管费就是40000美元
1.3.5.3. 数据若能转存到12TB的磁带上,则只需要334盘磁带,这样能够把每年的保管费降为1336美元
2. 优点2.1. 费用低廉
2.1.1. 成本最接近磁带的是那种用来保存经过去重的数据时所使用的磁盘,然而磁带的价格要远低于后者
2.1.2. 成本低廉较为重要的一个原因在于,存储数据的介质(也就是磁带本身)与将数据写入该介质的设备(也就是磁带机)是相互分离的
2.1.2.1. 对于磁盘来说,这不太可能,每块磁盘都必须跟它的写入机制集成到一起
2.1.2.2. 磁盘驱动器的内部构造也要比磁带驱动器(也就是磁带机)复杂得多
2.1.2.3. 全自动的磁带柜来操纵多个磁带机,以此充当大型的存储阵列,这样做的成本通常比用磁盘所打造的磁盘阵列要低
2.1.3. 磁带真正能体现其优势的地方在于耗电量
2.1.3.1. 磁带柜里的磁带平常是不需要电的
2.1.3.2. 磁带机在不写入数据时也几乎不耗电
2.1.3.2.1. 自动磁带柜在不取磁带时也是如此
2.1.3.3. 常见的磁盘驱动器则做不到这一点,一般来说,磁盘阵列里的每块磁盘都必须一直通电
2.1.3.3.1. 大规模闲置磁盘阵列
2.1.3.3.1.1. Massive Array of Idle Disk,MAID,又称大规模非活动磁盘阵列、大规模空转磁盘阵列
2.1.3.3.1.2. 能够让磁盘电源在大多数时间内处于关闭状态
2.1.3.3.1.3. 去重要求所有的磁盘都必须处于工作状态,而MAID则想让这些磁盘都尽量处于闲置状态
2.1.3.4. 买系统只需要付一次钱,但是买回来之后,就必须整天开着
2.1.3.4.1. 还要把买回来之后的电费跟冷却费给算上
2.1.4. 磁带系统比磁盘系统更省电
2.1.4.1. 数据保存的时间越长,所节省的电费与冷却费就越多
2.1.4.2. 就算磁盘本身不要钱,它在费用方面也还是会比磁带高,因为你必须把电费与冷却费给考虑进来
2.1.4.3. 存放同一份数据的多个副本,是否会让电费与冷却费增加
2.1.4.3.1. 对于磁带来说,这不会增加成本
2.1.4.3.2. 对于磁盘来说,每多存一份,就会增加一份开销
2.1.5. 当今这些基于磁盘的系统所提供的功能,已经远超它在费用方面的劣势了,然而无论如何,磁带的费用就是比磁盘低
2.2. 可靠地写入数据
2.2.1. 磁带机写入数据远比磁盘驱动器可靠
2.2.1.1. 每个存储厂商都会为其所推出的每一款存储设备公布UBER(Uncorrected Bit Error Rate,未修正的错误比特率)
2.2.1.2. UBER的意思是说,该设备有多大概率会把本来应该写成1的地方给写成0(或者把本来应该写成0的地方给写成1),并且无法修复(无法修正)该错误
2.2.1.3. 磁带在正确写入数据这一方面比磁盘要强
2.2.2. 当今的数据写入设备为了确保数据能够正确地写入,都会执行一种名叫写后读校验(read-after-write check)的操作
2.2.2.1. ECC(Error Correcting Code,纠错码)
2.2.2.2. CRC(Cyclical Redundancy Check,循环冗余校验)
2.2.2.3. 驱动器在写入数据块之前会先计算其哈希码(hash,也叫杂凑码),然后再写入这块数据
2.2.3. 在大多数情况下,设备所写入的数据块是正确的,而且即便写错了,这些用于探测写入错误的技术也大都能把错误给找出来
2.2.3.1. 既写错数据又找不出错误的情况依然是存在的,这两种情况同时出现的概率虽然相当低,但毕竟不是0
2.2.4. 未修正的错误比特(uncorrected bit error,或称未修正的错误二进制位)
2.2.4.1. 发生这种情况的概率其实远比很多人想的要高,而且对于磁盘来说尤为严重
2.2.4.2. 当今的磁带机写错数据的概率极低
2.2.4.3. 磁带机可能会受各种原因(比方说,本身遭到了破坏)影响而无法读出你想要的数据,然而只要它能把数据读给你,这种数据一般来说都不会错
2.2.4.4. LTO-8的UBER是1∶10^19
2.2.4.5. SATA磁盘的UBER高达1:10^14
2.2.4.6. SATA磁盘写错的概率是LTO-8磁带的10000倍
2.2.5. 在正确写入数据这一点上要远胜磁盘
2.2.5.1. 这实在没有争论的余地
2.3. 长久地保存数据
2.3.1. 磁带是一种极其适合长久保存数据的介质
2.3.1.1. 磁带能够把数据保存30年,而一个全天开机的磁盘则只能保存5年
2.3.2. 所有的磁性介质(magnetic media,又称磁性媒介)都会随着时间而退化
2.3.2.1. 问题只在于退化的速度是多少
2.3.2.2. 退化现象俗称位衰减(bit rot)
2.3.2.2.1. 它决定了一份文件能够在某种磁性介质中保存多久而不走样
2.3.2.2.2. 位衰减问题可以由对象存储机制来解决
2.3.2.2.2.1. 如果底层数据由于位衰减而发生变化,那么根据该对象的哈希码所生成的UID也会改变,对象存储机制能够将这一故障探测出来并予以修正
2.3.3. 位衰减的速度由两个因素决定
2.3.3.1. 磁颗粒的大小(也就是体积)
2.3.3.1.1. 磁颗粒越大越好
2.3.3.2. 介质的平均温度
2.3.3.2.1. 介质温度越低越好
2.3.4. 与磁带相比,磁盘的磁颗粒要小得多,而且温度比磁带高
2.3.4.1. 由于磁盘的磁颗粒较小,而且运转时的温度较高,因此它的数据衰减速度比磁带快
2.3.4.2. 磁盘每次搬移数据时,都会面临磁盘的位错误率(bit error rate,又称比特错误率)比较高的问题
2.3.5. 有个公式决定了每种磁性介质的势垒(energy barrier,又称位垒、能垒)
2.3.5.1. 势垒指的是,需要多少能量才能让某个磁颗粒(magnetic grain,即磁性介质中存储一个二进制位所用的单元)变换到与目前相反的状态(即从1变成0,或从0变成1)
3. 缺点3.1. 磁带不擅长写入那种常见的增量备份
3.1.1. 不擅长在比较长的一段时间内写入数量较少的数据
3.2. 为了让磁头能够把数据可靠地写入介质,必须保持较高的信噪比,这意味着信号(也就是磁头中的换极现象)必须远多于噪声(也就是干扰正常信号的那些电子杂讯)
3.2.1. 要想维持较高的信噪比,关键是要让记录数据所用的介质能够高速地通过磁头
3.2.2. 磁盘驱动器采用的做法是让记录数据的介质高速旋转
3.2.3. 磁带机的做法则是飞快地转动磁带,让它能够高速地经过磁头
3.2.3.1. 让磁头静止不动,并让磁带高速地滑过磁头
3.3. 让磁头静止并且让磁带高速滑过的做法,叫作线性磁带记录模式(linear tape recording model)
3.3.1. 这正是LTO(Linear Tape Open,线性磁带开放协议)磁带机所采用的录制手法
3.3.2. IBM的TS11x0磁带机也是如此
3.4. LTO-8磁带通过磁头的速度是每秒20ft,这相当于每小时13mile(或每小时21km)
3.4.1. 为了让磁带全速运转,数据必须以每秒750MB的速度到来,而要想达到这种速度,向磁带提供数据的设备每秒要准备1GB数据
3.4.2. 问题在于,我们生成备份数据的速度达不到每秒750MB
3.4.3. 带有1GB缓冲区的LTO-8磁带机,能够在某种程度上解决数据输入速度与磁带机速度之间的差异问题,然而这只是针对差距不大的情况
3.5. 解决办法
3.5.1. 浪费好几英里长的磁带什么都不写(这正是某些磁带机目前的做法),
3.5.2. 定期让磁带停止转动,并重新调整写入的位置,以适应这种较低的数据流入速度
3.5.2.1. 磁带机会让磁带停下来,然后倒带,接着继续以正常速度正向转动磁带
3.5.2.1.1. 给介质做重定位,这可能需要6s
3.5.2.1.1.1. “擦鞋”(shoe shining)
3.5.2.1.1.2. 这种运动方式很像擦鞋时的动作,都是在反复地擦来擦去
3.5.2.1.1.3. 如果这种现象频繁出现,那么磁带机花在重新定位上的时间,就比花在写入数据上的时间更多,这会让人觉得磁带机好像比输入的数据流还慢
3.5.2.2. 采用速度适配技术(adaptive speed technology,也叫自适应的速度技术)来调整介质的移动速度,令其与数据的流入速度相符,以尽量降低重新定位的次数
3.6. 让数据流入每个磁带机的速度,变得与该磁带机所标称的运转速度相符
3.6.1. 磁带机的速度与备份数据的流入速度相匹配
3.6.2. 磁带机本身并不慢,慢的是你的备份数据流入磁带机的速度
3.6.3. 由于磁带机没办法把速度降到像后者那样低,因此它必须反复调整磁带的位置,这导致实际的处理速度变得相当缓慢