许多数据中心面对的最大应战对错结构化数据的极大添加。虽然结构化数据在曩昔10至20年间有所添加,但在曩昔几年中,非结构化数据的来源以及人们运用所述数据的才能现已明显添加。非结构化数据办理面对的应战之一是,一般很难断定何时删去它。
例如,从以往的管帐年度挑选一切财政记载,将其归档并从主存储体系中删去对错常简略的。用非结构化数据来做这个并不是那么简略。管帐所面对的其间一个应战对错结构化数据一般由无数人具有的,而不是一个一致的应用程序。
安排的事务环境中可能存在数千个用户和数百个应用程序,用于创立非结构化数据,而且当一条非结构化数据变得有用时,一般对此并不清楚,因而没有人想要删去任何内容。缺少详细的问责制导致大部分数据处于非活动状况,而这与数据占用空间无关。只要安排依托数据创立者来辨认和搬迁那些陈腐的和未运用的数据,那么非活动数据将始终是一个问题。
当人们查看备份体系的问题,主存储体系日益胀大的问题就会变得愈加令人重视。由于大多数备份体系都处理一切非结构化数据,因而都会运用相同的战略来备份非常重要的数据和非活动数据。由于数据是混合的,所以底子无法处理一切数据。许多人每周进行全面备份,然后进行每日增量备份,保存至少六个月,或许可能是一年或更长时刻。
如果保存至少90天的每周完好备份,就会看到12份无人重视的数据副本。如果存储该数据的现场和非现场副本,就会查看到该数据的24个副本,其间大部分对错活动的。关于一个2TB的安排数据来说,这将会存储48TB的数据,当然许多数据是可办理的。而这种存储的工作数据,48TB数据大约选用十几个磁带介质或硬盘驱动器进行存储。但关于1PB客户来说,每年24,000TB的数据或大约选用6000个存储介质进行存储。
存储在备份体系上的非活动数据的额定副本会发生许多不用要的结果。如果安排正在运用磁盘存储,则此数据的存储和复制具有与之相关的本钱。如果安排的存储不运用重复数据删去,那么存储这些额定的数据副本的本钱可能是个天文数字。如果安排运用重复数据删去技能,这些本钱将会有点混杂。虽然安排的重复数据删去存储体系能够在存储一个副本的空间中存储20个副本,可是这些会收取必定费用,此外安排还需为额定的存储空间付费,只是以不同的办法支付。有些人这么说:重复数据删去体系使1TB存储看起来像20TB的存储空间,可是它们只收取10TB的存储空间。这意味着他们现已弄清楚怎么收取10TB的存储空间的费用,而供给的却是1TB的存储空间。
在备份体系中运用重复数据删去的大多数安排也在方程式的方针端履行,这意味着对非活动数据的重复完全备份仍会在备份客户端发生问题。完全备份对正在备份的体系和发送备份的网络具有功能方面影响,因而,重复的非活动数据的完全备份会使安排的花费更多,由于需要购买更强壮的服务器和更快的网络。
在数据复原过程中也会呈现备份非活动数据的应战。考虑一个具有PB级数据的数据中心的场景,其间900TB数据是活动的。康复1PB的数据是一项严重的使命,需要恰当长的时刻。幻想一下,如果只需要康复安排实际运用的100TB数据,那么这种康复是不是要快得多?
用户从不删去任何东西所带来的另一个应战是,确实正需要的时分很难找到任何东西。这使一切的存储数据就是像屋子里放满杂物的抽屉,很难找到想要找的东西。就会发现不再运用的手机充电器,回形针,旧电池,发夹等杂言无不尽,什么都有,但就没有所要找的东西。主存储体系也选用这种相同的办法,因而当填充大多数不活动的数据时,很难找到活动的数据文件。
此外,即便一个用户在笔记本电脑中企图查找文件也会存在这个问题。幻想一下,当人们议论数千个用户和PB级数据时,这个问题是多么的巨大。这能够导致重要的文件丢掉,使它们质上毫无价值。结果是用户将重复他们的尽力,偏重新创立文件,因而这让非结构化数据问题的添加变得愈加糟糕。
具有PB级数据的规划更大的企业同样也存在这样的问题,他们一般面对不同的用户在多个方位创立和运用不同的文件中的问题。他们可能期望能够分享一些数据,可是关所以PB级数据来说,这是恰当困难的。这也加重了“废物抽屉”问题。在废物抽屉里找到什么东西很难,但如果不断定在哪个废物抽屉来找时,那就更难了。
供认宽和决非结构化数据问题
处理非结构化数据问题的仅有办法就是供认它的存在。供认在大环境中很难找到文件,乃至更难同享。供认核算、网络和存储资源的很大一部分用于存储、复制和备份非活动数据。
处理这些问题的一个办法是创立一个大局一致的文件体系,将一切上述问题考虑在内。这并不能处理用户创立数百万个文件并将它们永久留在那里的问题,但它至少把问题放在一个能够会集办理和处理问题的维护伞下。呈现一次问题,就处理一次,而不是在企业中多次处理这些问题。
是撤销存档的时分吗?
规划这么大的文件体系应该经过高级元数据进行集成查找。用户能够经过许多不同的元数据轻松地查找,以便找到他们正在处理的文件。他们当然会继续具有一般运用的文件体系语义,使它们能够创立目录或子目录来协助他们收拾他们的文件。具有联合查找的单个文件体系还将答应他们查找其他人正在处理与他们感兴趣的元数据相匹配的文件。
最重要的是,为处理这个问题而规划的文件体系有必要了解活动和非活动的数据,它有必要以不同的办法处理。最明显的做法是自动辨认并将非活动数据搬迁到本钱更低的自我维护目标存储。这将处理上述一些问题,包含在主存储和备份存储中的空间糟蹋。了解活动和非活动数据之间的差异的文件体系也有助于更简略地查找文件,由于这是能够用于查找的元数据之一。
一个单一的大局文件体系也能够协助世界各地的用户同享数据。多个办公室的用户能够查找同一个大局文件体系,找到他们正在寻觅的数据类型,并当即访问它,如果他们具有恰当的权限的话。由于大局文件体系了解非活动数据的概念,所以查找(如果用户需要的话)也能够包含非活动数据。
将非活动数据搬迁到本钱更低的目标存储的简略行为也释放了备份体系的压力。它使备份和康复更快,由于它们不用处理非活动数据,因而也节省了许多的存储空间。有些人以为存储在自维护目标存储中的数据底子不需要备份。如果用户决议备份,能够这样做,以辨认其性质,并在备份体系中存储少得多的非活动数据副本。
这个问题现已存在多年。企业好像关于非结构化数据的渴望是永无止境的,IT应用程序开发人员正在开发利用非结构化数据的新办法,使得具有这样的数据更具吸引力。非结构化数据的添加不太可能很快消失,所以用户最好的办法就是处理问题。一个很好的办法是选用一个大局文件体系,用于处理问题,这包含了解元数据以及将非活动数据自动搬迁到本钱较低的目标存储。
文章来源:机房专用(中国)科技公司www.nathanhalewill.com