云存储关键技术研究与发展应用

1 云存储的定义1.1 定义1 云存储系统以传统的分布式存储技术为基础，利用高吞吐率网络技术为依托，一方面高效地整合管理网络存储资源，另一方面对外提供友好的接口，发布便捷的网络数据存储服务1.2 定义2 从狭义上来说，云存储是指通过虚拟化、分布式技术、集群应用、网格技术、负载均衡等技术，将网络中大量的存储设备通过软件集合起来高效协同工作，共同对外提供低成本、高扩展性

在hust快乐的学习

15131人浏览 · 2012-10-27 20:00:45

在hust快乐的学习 · 2012-10-27 20:00:45 发布

1 云存储的定义

1.1 定义1

云存储系统以传统的分布式存储技术为基础，利用高吞吐率网络技术为依托，一方面高效地整合管理网络存储资源，另一方面对外提供友好的接口，发布便捷的网络数据存储服务

1.2 定义2

从狭义上来说，云存储是指通过虚拟化、分布式技术、集群应用、网格技术、负载均衡等技术，将网络中大量的存储设备通过软件集合起来高效协同工作，共同对外提供低成本、高扩展性的数据存储服务。

从广义上来讲，云存储可以理解为按需提供的虚拟存储资源，如同云计算的Paas、Iaas服务一样，可称为数据存储即服务（Data Storage As a Service，DaaS），即基于指定的服务水平请求，通过网络提供适当的虚拟存储和相关数据服务。

1.3 定义3

云存储不是指某一个具体的设备，而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储，并不是使用某一个存储设备，而是使用整个云存储系统带来的一种数据访问服务。云存储的核心是应用软件与存储设备相结合，通过应用软件来实现存储设备向存储服务的转变。

1.4 定义4

云存储就是将储存资源放到网络上供人存取的一种新兴方案。使用者可以在任何时间、任何地方，透过任何可连网的装置方便地存取数据。

综合以上定义，云存储系统应具有以下通用特征：

★高可扩展性：云存储系统可支持海量数据处理，资源可以实现按需扩展；

★低成本：云存储系统应具备高性价比的特点，低成本体现在两方面，更低的建设成本和更低的运维成本；

★无接入限制：相比传统存储，云存储强调对用户存储的灵活支持，服务域内存储资源可以随处接入，随时访问；

★易管理：少量管理员可以处理上千节点和PB级存储，更高效的支撑大量上层应用对存储资源的快速部署需求。

2 云存储架构

云存储是由一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等组成的复杂系统。以存储设备为核心，通过应用软件来对外提供数据存储和业务访问服务。云存储的架构如下图所示：

★存储层：存储设备数量庞大且分布在不同地域，彼此通过广域网、互联网或光纤通道网络连接在一起。在存储设备之上是一个统一存储设备管理系统，实现存储设备的逻辑虚拟化管理、多链路冗余管理，以及硬件设备的状态监控和故障维护。

★基础管理层：通过集群、分布式文件系统和网格计算等技术，实现云存储设备之间的协同工作，使多个的存储设备可以对外提供同一种服务，并提供更大更强更好的数据访问性能。数据加密技术保证云存储中的数据不会被未授权的用户访问，数据备份和容灾技术可以保证云存储中的数据不会丢失，保证云存储自身的安全和稳定。

★应用接口层：不同的云存储运营商根据业务类型，开发不同的服务接口，提供不同的服务。例如视频监控、视频点播应用平台、网络硬盘，远程数据备份应用等。

★访问层：授权用户可以通过标准的公用应用接口来登录云存储系统，享受云存储服务。

3 云存储中的关键技术

3.1 云存储中的存储虚拟化

通过存储虚拟化方法，把不同厂商、不同型号、不同通信技术、不同类型的存储设备互联起来，将系统中各种异构的存储设备映射为一个统一的存储资源池。存储虚拟化技术能够对存储资源进行统一分配管理，又可以屏蔽存储实体间的物理位置以及异构特性，实现了资源对用户的透明性，降低了构建、管理和维护资源的成本，从而提升云存储系统的资源利用率。

3.1.1 主要存储虚拟化技术

存储虚拟化技术虽然不同设备与厂商之间略有区别，但从总体来说，可概括为基于主机虚拟化、基于存储设备虚拟化和基于存储网络虚拟化三种技术。

★基于主机的虚拟化存储的实现，其核心技术是通过增加一个运行在操作系统下的逻辑卷管理软件将磁盘上的物理块号映射成逻辑卷号，并以此实现把多个物理磁盘阵列映射成一个统一的虚拟的逻辑存储空间（逻辑块）实现存储虚拟化的控制和管理。从技术实施层面看，基于主机的虚拟化存储不需要额外的硬件支持，便于部署，只通过软件即可实现对不同存储资源的存储管理。但是，虚拟化控制软件也导致了此项技术的主要缺点：首先，软件的部署和应用影响了主机性能；其次，各种与存储相关的应用通过同一个主机，存在越权访问的数据安全隐患；最后，通过软件控制不同厂家的存储设备存在额外的资源开销，进而降低系统的可操作性与灵活性。

★基于存储设备虚拟化技术依赖于提供相关功能的存储设备的阵列控制器模块，常见于高端存储设备，其主要应用针对异构的SAN存储构架。此类技术的主要优点是不占主机资源，技术成熟度高，容易实施；缺点是核心存储设备必须具有此类功能，且消耗存储控制器的资源，同时由于异构厂家磁盘阵列设备的控制功能被主控设备的存储控制器接管导致其高级存储功能将不能使用。

★基于存储网络虚拟化的技术的核心是在存储区域网中增加虚拟化引擎实现存储资源的集中管理，其具体实施一般是通过具有虚拟化支持能力的路由器或交换机实现。在此基础上，存储网络虚拟化又可以分为带内虚拟化与带外虚拟化两类，二者主要的区别在于：带内虚拟化使用同一数据通道传送存储数据和控制信号，而带外虚拟化使用不同的通道传送数据和命令信息。基于存储网络的存储虚拟化技术架构合理，不占用主机和设备资源；但是其存储阵列中设备的兼容性需要严格验证，与基于设备的虚拟化技术一样，由于网络中存储设备的控制功能被虚拟化引擎所接管，导致存储设备自带的高级存储功能将不能使用。

3.1.2 存储虚拟化技术对比

用表格的方式对三种存储虚拟化技术的技术优点与缺点、适应场景等进行了分析对比，结果如下：

3.2 云存储中的分布式存储技术

分布式存储是通过网络使用服务商提供的各个存储设备上的存储空间，并将这些分散的存储资源构成一个虚拟的存储设备，数据分散的存储在各个存储设备上。目前比较流行的分布式存储技术为：分布式块存储、分布式文件系统存储、分布式对象存储和分布式表存储。

3.2.1 分布式块存储

块存储就是服务器直接通过读写存储空间中的一个或一段地址来存取数据。由于采用直接读写磁盘空间来访问数据，相对于其他数据读取方式，块存储的读取效率最高，一些大型数据库应用只能运行在块存储设备上。分布式块存储系统目前以标准的Intel/Linux 硬件组件作为基本存储单元，组件之间通过千兆以太网采用任意点对点拓扑技术相互连接，共同工作，构成大型网格存储，网格内采用分布式算法管理存储资源。此类技术比较典型的代表是IBM XIV 存储系统，其核心数据组件为基于Intel 内核的磁盘系统，卷数据分布到所有磁盘上，从而具有良好的并行处理能力；放弃RAID技术，采用冗余数据块方式进行数据保护，统一采用SATA盘，从而降低了存储成本。

3.2.2 分布式文件系统存储

文件存储系统可提供通用的文件访问接口，如POSIX、NFS、CIFS、FTP等，实现文件与目录操作、文件访问、文件访问控制等功能。目前的分布式文件系统存储的实现有软硬件一体和软硬件分离两种方式。主要通过NAS虚拟化，或者基于X86硬件集群和分布式文件系统集成在一起，以实现海量非结构化数据处理能力。

软硬件一体方式的实现基于X86硬件，利用专有的、定制设计的硬件组件，与分布式文件系统集成在一起，以实现目标设计的性能和可靠性目标；产品代表Isilon，IBM SONAS GPFS。

软硬件分离方式的实现基于开源分布式文件系统对外提供弹性存储资源，软硬件分离方式，可采用标准PC服务器硬件；典型开源分布式文件系统有GFS、HDFS。

3.2.3 分布式对象存储

对象存储是为海量数据提供Key-Value这种通过键值查找数据文件的存储模式；对象存储引入对象元数据来描述对象特征，对象元数据具有丰富的语义；引入容器概念作为存储对象的集合。对象存储系统底层基于分布式存储系统来实现数据的存取，其存储方式对外部应用透明。这样的存储系统架构具有高可扩展性，支持数据的并发读写，一般不支持数据的随机写操作。最典型的应用实例就是亚马逊的S3（Amazon Simple Storage Service）。对象存储技术相对成熟，对底层硬件要求不高，存储系统可靠性和容错通过软件实现，同时其访问接口简单，适合处理海量、小数据的非结构化数据，如：邮箱、网盘、相册、音频视频存储等

3.2.4 分布式表存储

表结构存储是一种结构化数据存储，如传统数据库相比，它提供的表空间访问功能受限，但更强调系统的可扩展性。提供表存储的云存储系统的特征就是同时提供高并发的数据访问性能和可伸缩的存储和计算架构。

提供表存储的云存储系统有两类接口访问方式。一类是标准的xDBC、SQL数据库接口，一类是Map-reduce的数据仓库应用处理接口。前者目前以开源技术为主，尚未有成熟的商业软件，后者已有商业软件和成功的商业应用案例。

3.2.5 分布式存储总结

如今分布式存储系统已经得到了快速的发展，其技术已经较为成熟。先进的分布式存储系统必须具备下面几个特性：高性能、高可靠性、高可扩展性、透明性以及自治性。

★高性能：对于分布式系统中的每一个用户都要尽量减小网络的延迟和因网络拥塞、网络断开、节点退出等问题造成的影响；

★高可靠性：高可靠性是大多数系统设计时重点考虑的问题。分布式环境通常都有高可靠性需求，用户将文件保存到分布式存储系统的基本要求是数据可靠；

★高可扩展性：分布式存储系统需要能够适应节点规模和数据规模的扩大；

★透明性：需要让用户在访问网络中其他节点中的数据时能感到像是访问自己本机的数据一样；

★自治性：分布式存储系统需要拥有一定的自我维护和恢复功能。

3.3 云存储中的数据备份

3.3.1 副本数据布局

一种被广泛采用的副本布局方式是通过集中式的存储目录来定位数据对象的存储位置。这种方法可以利用存储目录中存放的存储节点信息，将数据对象的多个副本放置在不同机架上，这样可大大提高系统的数据可靠性。谷歌文件系统(Google File System，GFS)、Hadoop 分布式文件系统( Hadoop Distributed File System，HDFS)等著名的分布式文件系统都采用了这种数据布局方式，然而，基于集中式存储目录的数据放置方式存在以下两个缺陷:

1.随着存储目录的增长，查找数据对象所需的开销也会越来越大;

2.为提高数据对象的定位速度，一般情况下都会将存储目录存放在服务器内存中，对于PB 级的云存储系统来说，文件的数量可能达到上亿级，这导致存储目录将会占用上百GB的内存。因此，当数据对象数量达到上亿级别时，基于集中式存储目录的数据放置方法在存储开销和数据定位的时间开销上都是难以接受的，此外，还会大大限制系统的扩展性。

另一种副本布局方法是基于哈希算法的副本布局方法，它完全摒弃了记录数据对象映射信息的做法。基于哈希算法的副本布局方法需要满足以下要求:

1.均衡性：根据节点权重为存储节点分配数据对象。

2.动态自适应性：当系统中的节点数量发生变化时，需迁移的数据量应该尽量少。

3.低性能开销。

4.高效性：确定副本位置所需的时间开销尽可能小，理想情况下为 O( 1) 。

3.3.2传统的备份策略

典型的用户备份流程是这样的：每天都要在凌晨进行一次增量备份，然后每周末凌晨进行全备份。采用这种方法，一旦出现了数据灾难，用户可以恢复到某天（注意是以天为单位的）的数据，因此在最坏的情况下，可能丢失整整一天的数据。

　　那么，能不能缩小备份时间单位呢？比如，可不可以每半天进行一次增量备份呢？答案是非常困难。因为每次进行备份的数据量都很大的情况下，备份时间窗口很大，需要繁忙的业务系统停机很长时间才能做到。

因此，为了确保数据的更高安全性，用户必须对在线系统实行在线实时复制，尽可能多地采用快照等磁盘管理技术维持数据的高可用性，这样势必需要增加很大一部分投资。

3.3.3 连续数据保护

连续数据保护（CDP）是一种连续捕获和保存数据变化，并将变化后的数据独立于初始数据进行保存的方法，而且该方法可以实现过去任意一个时间点的数据恢复。CDP系统可能基于块、文件或应用，并且为数量无限的可变恢复点提供精细的可恢复对象。

　　因此，所有的CDP解决方案都应当具备以下几个基本的特性：数据的改变受到连续的捕获和跟踪；所有的数据改变都存储在一个与主存储地点不同的独立地点中；恢复点目标是任意的，而且不需要在实际恢复之前事先定义。

　　所以，CDP可以提供更快的数据检索、更强的数据保护和更高的业务连续性能力，而与传统的备份解决方案相比，CDP的总体成本和复杂性都要低。

　　尽管一些厂商推出了CDP产品，然而从它们的功能上分析，还做不到真正连续的数据保护，比如有的产品备份时间间隔为一小时，那么在这一小时内仍然存在数据丢失的风险，因此，严格地讲，它们还不是完全意义上的CDP产品，目前我们只能称之为类似CDP产品。

3.4 云存储中的数据缩减技术

为应对数据存储的急剧膨胀，企业需要不断购置大量的存储设备来满足不断增长的存储需求。权威调查机构的研究发现，企业购买了大量的存储设备，但是利用率往往不足５０％，存储投资回报率水平较低。数据量的急剧增长为存储技术提出了新的问题和要求，怎样低成本高效快速地解决无限增长的信息的存储和计算问题摆在科学家的面前。通过云存储技术不仅解决了存储中的高安全性、可靠性、可扩展、易管理等存储的基本要求，同时也利用云存储中的数据缩减技术，满足海量信息爆炸式增长趋势，一定程度上节约企业存储成本，提高效率。

3.4.1 自动精简配置

自动精简配置是一种存储管理的特性，核心原理是“欺骗”操作系统，让操作系统认为存储设备中有很大的存储空间，而实际的物理存储空间则没有那么大。传统配置技术为了避免重新配置可能造成的业务中断，常常会过度配置容量。在这种情况下，一旦存储分配给某个应用，就不可能重新分配给另一个应用，由此就造成了已分配的容量没有得到充分利用，导致了资源的极大浪费。而精简配置技术带给用户的益处是大大提高了存储资源的利用率，提高了配置管理效率，实现高自动化的数据存储。

自动精简配置技术是利用虚拟化方法减少物理存储空间的分配，最大限度提升存储空间利用率。这种技术节约的存储成本可能会非常巨大，并且使存储的利用率超９０％。通过“欺骗”操作系统，造成的好像存储空间有足够大，而实际物理存储空间并没有那么大。自动精简配置技术的应用会减少已分配但未使用的存储容量的浪费，在分配存储空间时，需要多少存储空间系统则按需分配。自动精简配置技术优化了存储空间的利用率，扩展了存储管理功能，虽然实际分配的物理容量小，但可以为操作系统提供超大容量的虚拟存储空间。随着数据存储的信息量越来越多，实际存储空间也可以及时扩展，无需用户手动处理。利用自动精简配置技术，用户不需要了解存储空间分配的细节，这种技术就能帮助用户在不降低性能的情况下，大幅度提高存储空间利用效率；需求变化时，无需更改存储容量设置通过虚拟化技术集成存储，减少超量配置，降低总功耗。

自动精简配置这项技术最初由3Par公司开发，目前支持自动精简配置的厂商正在快速增加。这项技术已经成为选择存储系统的关键标准之一。但是并不是所有的自动精简配置的实施都是相同的。随着自动精简配置的存储越来越多，物理存储的耗尽成为自动精简配置环境中经常出现的风险。因此，告警、通知和存储分析成为必要的功能，并且对比传统环境，其在自动精简配置的环境中扮演了更主要的角色。

3.4.2 自动存储分层

自动存储分层（AST）技术主要用来帮助数据中心最大程度地降低成本和复杂性。在过去，进行数据移动主要依靠手工操作，由管理员来判断这个卷的数据访问压力或大或小，迁移的时候也只能一个整卷一起迁移。自动存储分层技术的特点则是其分层的自动化和智能化。传统配置方式与自动存储分层方式比较是一个整卷一起迁移。新技术的特点则是其分层的自动化和智能化。自动存储分层是存储上减少数据的另外一种机制。一个磁盘阵列能够把活动数据保留在快速、昂贵的存储上，把不活跃的数据迁移到廉价的低速层上，以限制存储的花费总量。自动存储分层的重要性随着固态存储在当前磁盘阵列中的采用而提升，并随着云存储的来临而补充内部部署的存储。自动存储分层使用户数据保留在合适的存储层级，因此减少了存储需求的总量并实质上减少了成本，提升了性能。数据从一层迁移到另一层的粒度越精细，可以使用的昂贵存储的效率就越高。子卷级的分层意味着数据是按照块来分配而不是整个卷，而字节级的分层比文件级的分层更好。如何控制数据在层间移动的内部工作规则，决定需要把自动分层放在正确的位置的努力程度。一些系统，是根据预先定义的什么时候移动数据和移动到哪一层。相反的，Net App公司和Oracle公司（在Sun ZFS Storage 7000系列中）倡导存储系统应该足够智能，能重复数据删除，能自动的保留数据在其合适的层，而不需要用户定义的策略。

3.4.3 重复数据删除

物理存储设备在使用一段时间后必然会出现大量重复的数据。“重复删除”技术（De-duplication）作为一种数据缩减技术可对存储容量进行优化。它通过删除数据集中重复的数据，只保留其中一份，从而消除冗余数据。使用De-dupe技术可以将数据缩减到原来的1/20-1/50。由于大幅度减少了对物理存储空间的信息量，进而减少传输过程中的网络带宽、节约设备成本、降低能耗。重复数据删除技术原理De-dupe按照消重的粒度可以分为文件级和数据块级。可以同时使用２种以上的hash算法计算数据指纹，以获得非常小的数据碰撞发生概率。具有相同指纹的数据块即可认为是相同的数据块，存储系统中仅需要保留一份。这样，一个物理文件在存储系统中就只对应一个逻辑表示。Net App公司为其所有的系统提供重复数据删除选项，并且可以针对每个卷进行激活。Net App公司的重复数据删除并不是实时执行的。相反，它是使用预先设置的进程执行的，一般是在闲暇时间执行，通过扫描把重复的4KB数据块替换为相应的指针。与Net App公司相似，Oracle公司在其Sun ZFS Storage7000系列系统中也具备块级别重复数据删除的功能。与Net App公司不同的是，去重是在其写入磁盘时实时执行的。戴尔公司获得了内容感知的去重和压缩技术，并企图把这种技术整合到其所有的存储系统中。

3.4.4 数据压缩

数据压缩技术是提高数据存储效率最古老最有效的方法之一。为了节省信息的存储空间和提高信息的传输效率，必须对大量的实际数据进行有效的压缩。数据压缩作为对解决海量信息存储和传输的支持技术受到人们极大的重视。数据压缩就是将收到的数据通过存储算法存储到更小的空间中去。随着目前CPU处理能力的大幅提高，应用实时压缩技术来节省数据占用空间成为现实。这项新技术就是最新研发出的在线压缩（RACE），它与传统压缩技术不同。对RACE技术，当数据在首次写入时即被压缩，以帮助系统控制大量数据在主存中杂乱无章地存储的情形，特别是多任务工作时更加明显。该技术还可以在数据写入到存储系统前压缩数据，进一步提高了存储系统中的磁盘和缓存的性能和效率。压缩算法分为无损压缩和有损压缩。相对于有损压缩来说，无损压缩的占用空间大，压缩比不高，但是它有效地保存了原始信息，没有任何信号丢失。但是随着限制无损格式的种种因素逐渐被消除，使得无损压缩格式具有广阔的应用前景。数据压缩中使用的LZS算法基于LZ77实现，主要由２部分构成，滑窗（Sliding Window）和自适应编码（Adaptive Coding）。压缩处理时，在滑窗中查找与待处理数据相同的块，并用该块在滑窗中的偏移值及块长度替代待处理数据，从而实现压缩编码。如果滑窗中没有与待处理数据块相同的字段，或偏移值及长度数据超过被替代数据块的长度，则不进行替代处理。LZS算法的实现非常简洁，处理比较简单，能够适应各种高速应用。数据压缩的应用可以显著降低待处理和存储的数据量，一般情况下可实现2:1～3:1的压缩比。压缩和去重是互补性的技术，提供去重的厂商通常也提供压缩。而对于虚拟服务器卷、电子邮件附件、文件和备份环境来说，去重通常更加有效，压缩对于随机数据效果更好，像数据库。换句话说，在数据重复性比较高的地方，去重比压缩有效。

3.5 云存储中的内容分发网络技术

云存储是构建于互联网之上的，何如降低网络延迟、提高数据传输率是关系到云存储性能的关键问题。尽管有一些通过本地高速缓存、广域网优化等技术来解决问题的研究工作，但离实际的应用需求还有一定的距离。内容分发网络是一种新型网络构建模式，主要是针对现有的Internet 进行改造。基本思想是尽量避开互联网上由于网络带宽小、网点分布不均、用户访问量大等影响数据传输速度和稳定性的弊端，使数据传输的更快、更稳定。通过在网络各处放置节点服务器，在现有互联网的基础之上构成一层智能虚拟网络，实时地根据网络流量、各节点的连接和负载情况、响应时间、到用户的距离等信息将用户的请求重新导向离用户最近的服务节点上。目的是使用户可就近取得所需内容，解决Internet 网络拥挤的状况，提高用户访问网站的速度。

3.6 云存储中的数据迁移

当我们从一个物理环境和单个阵列过渡到完全虚拟化的、高度动态的存储环境时，数据的迁移就成了云存储方案中最为基础、关键的步骤，它在整个方案中占有了举足轻重的作用。

把企业的数据转移到云中，针对不同的实际情况这里有两种方法：

1.当企业的数据吞吐量较大但是数据量不是特别多，对传输延迟也没过多要求时，云供应商可以提供从企业到供应商某个存储节点之间的私人链接，方便企业迁移数据。企业可以根据自己的时间，在不影响公司正常运行的情况下做数据的转移安排；

2.当企业的数据可以提供拷贝，那么我们可以采用sneaker-net 的方式，即人工网络模式，将数据通过磁盘、移动存储设备等从企业服务器拷入到云数据中心或者从云数据中心拷贝出来。

如果企业对当前云供应商提供的服务不满意需要更换服务商，如何在两家服务商的云之间转移数据？这应该是当前一个很棘手的问题。由于目前云存储还处在初级阶段，各个云供应商都采用自己的加密或传输机制，因此没有一个规范和约束的统一标准。很多云存储供应商无法直接将客户数据迁移到另一家供应商。当服务出现故障时，数据将返还给客户，然后客户要再找另一家云供应商，或者将数据存储在本地服务器。所以希望各个云供应商提供一组云数据管理的应用编程接口API，让不同云供应商之间的数据迁移更加便捷。

3.7 云存储中的数据容错技术

数据容错技术是云存储研究领域的一项关键技术,良好的容错技术不但能够提高系统的可用性和可靠性,而且能够提高数据的访问效率。数据容错技术一般都是通过增加数据冗余来实现的,以保证即使在部分数据失效以后也能够通过访问冗余数据满足需求。冗余提高了容错性，但是也增加了存储资源的消耗。因此,在保证系统容错性的同时，要尽可能地提高存储资源的利用率，以降低成本。目前,常用的容错技术主要有基于复制(replication)的容错技术和基于纠删码(erasure code)的容错技术两种。基于复制的容错技术简单直观,易于实现和部署,但是需要为每个数据对象创建若干同样大小的副本存储空间开销很大；基于纠删码的容错技术则能够把多个数据块的信息融合到较少的冗余信息中，因此能够有效地节省存储空间,但是对数据的读写操作要分别进行编码和解码操作,需要一些计算开销。当数据失效以后,基于复制的容错技术只需要从其他副本下载同样大小的数据即可进行修复；基于纠删码的技术则需要下载的数据量一般远大于失效数据大小,修复成本较高。

3.7.1 基于复制的容错技术

基于复制的容错技术对一个数据对象创建多个相同的数据副本,并把得到的多个副本散布到不同的存储节点上。当若干数据对象失效以后,可以通过访问其他有效的副本获取数据。基于复制的容错技术主要关注两方面的研究:

(1) 数据组织结构：数据组织结构主要研究大量数据对象及其副本的管理方式;

(2) 数据复制策略：数据复制策略主要研究副本的创建时机、副本的数量、副本的放置等问题.

3.7.2 基于纠删码的容错技术

基于复制的容错技术存储开销巨大，要提供冗余度为k 的容错能力,就必须另外创建k个副本，存储空间的开销也增大了k 倍。基于编码的容错技术通过对多个数据对象进行编码产生编码数据对象，进而降低完全复制带来的巨大的存储开销。RAID技术中使用最广泛的RAID5 通过把数据条带化(stripping)分布到不同的存储设备上以提高效率，并采用一个校验数据块使之能够容忍一个数据块的失效。但是随着节点规模和数据规模的不断扩大,只容忍一个数据块的失效已经无法满足应用的存储需求。纠删码(erasure-coding)技术是一类源于信道传输的编码技术，因为能够容忍多个数据帧的丢失,被引入到分布存储领域,使得基于纠删码的容错技术成为能够容忍多个数据块同时失效的、最常用的基于编码的容错技术。

4 云存储的优势

云存储的优势主要体现在以下几个方面：

★高可扩展性：云存储架构采用的是并行扩容方式，当容量不够时，只需采购新的存储服务器，容量即可增加，而且几乎没有上限控制。

★负载均衡：云存储能自动将工作任务均匀分配到不同的存储服务器上，从而可避免因个别存储服务器工作量过大而造成性能瓶颈，这样可使整个存储系统发挥最大的功效。

★容易管理：对云存储管理者来说，即使再多的存储服务器也只是一台存储设备，管理人员只需在整体硬盘容量快用完时，增加采购存储服务器即可。而每台存储服务器的使用状况都可以很方便地在一个管理界面上看到。

★容易使用：如果你将数据存储在云存储系统,你就可以从任何有互联网接入的地方得到这些数据。你根本不需要随身携带一个物理存储设备或使用相同的计算机来保存和检索你的信息。

5 云存储中的安全问题

各种IT组织对于云存储最担心的问题是数据安全的问题。

①云数据存储位置问题：用户不知道实际数据的存储位置，会造成用户对于数据存储地的担心。对敏感数据的访问问题，如果云存储管理出现异常，可能导致不能掌控数据的访问权限。

②数据隔离问题。云存储存储了大量的客户数据，保证私有数据不能被其他无授权的用户访问。在存储云中，你的数据也许会与其他用户的数据储存在同一批磁盘上。如果另一位用户的数据遭到联邦调查局的检查，你的数据是否也会跟着被检查呢？目前的法律还不足以保护数据保存在同一台设备上的其他无责任方。为了解决这个问题，有些厂商会将每位客户的数据保存在彼此独立的磁盘上，利用不同的密钥来加密不同客户的数据。

③数据保护及恢复问题。主数据保护留给用户，在线运行的数据采用RAID 保护、多份拷贝、远程复制、快照、持续保护。次数据保护是对主数据所在的历史拷贝形成的备份，减少数据损坏，恢复被删除或被覆盖的数据，将数据长期保存。一旦数据出现全部或部分数据破坏时，及时进行全面恢复。

④云服务扩充与迁移问题。当用户需求扩大时，云提供商现有的云服务不能满足用户需求，用户需要转移至其他云提供商。迁移过程是安全的，可以进行端到端的加密。用户已有数据及应用能否保证顺利迁移将面临很大的不确定性。

⑤涉及系统程序管理安全，目标是系统尽可能少地被使用，避免任何虚拟机被其他虚拟机造成负面影响。数据通道，企业只能给需要维护必要功能的物理服务器提供访问路径，通过NPIV 使用访问列表、权限配置来完成。

6 国内外云存储产品

6.1 国外四大云存储产品详尽对比

在云存储这个巨大的市场面前，Google与微软利用各自在搜索与办公领域的优势做整合，苹果利用自己的平台与终端领域的优势做整合，而新兴创业公司Dropbox显然就缺乏这方面的资源，这也许将是它不得不面临的一个巨大挑战。对 Dropbox 来说，本地是文件最终的归宿，云端只是一个中转和备份的场所；对苹果来说，应用是文件最终的归宿，脱离应用的 iCloud 甚至没有一个能够让用户访问自己文件的方法；对微软来说比较复杂，在新版 Skydrive 发布前，Office 是其文件最终的归宿，现在则类似于 Dropbox，在未来可能会向 iCloud 靠近。而 Google Drive 则有所不同，从其当前发布形态就可以看出来，Web 是其服务的核心。但是，对任何一个巨头来说，产品更加人性化、更加易用、更加贴合用户的需求和习惯，才能拥有更多的用户，才能有更多的发展。

6.2 国内云存储产品

云存储一进入国内，就以异常惊人的速度成长，短短几年，就有115网盘、金山快盘、华为网盘、酷盘、360云盘数十个云存储产品面世，既有借助原有用户半路出家，也有赤手空拳的新生产物。所有厂商的目标只有一个：在这个被众人看好的新兴市场分一杯羹。

更令人意想不到的是国内用户的热情。截至2012年3月27日，国内最早的云存储之一——115网盘，宣称注册用户总数突破3000万。

（如下图所示）另一款产品——华为网盘也宣布注册用户数已经超过2000万，并预计2013年达到1亿大关。后起之秀酷盘亦有不俗、表现，拥有近1000万的注册用户。而这些数字比起4.2亿的网民，仍有极大的发展空间。要知道，2007年成立的美国Dropbox，做足三年，才仅仅拥有可怜的100万注册用户（目前为5000万）。

然而繁华发展的背后，一些隐忧也不可忽视。国外影响较大的云存储产品只有iCloud、SkyDrive、Google Drive、Dropbox四家，由于活跃用户比较固定，厂商完全可以安下心来集中精力拓展服务。而国内云存储市场尚处在跑马圈地阶段，惨烈的竞争尚未来临，市场的发展并不成熟，用户数量并不固定。

随着云计算热潮一浪高过一浪，云存储市场进入了百花齐放的时代，Dropbox捷足先登、iCloud喧宾夺主、Google Drive横空出世、微软SkyDrive快马加鞭，各大巨头都已经敏锐地嗅到了香饽饽的味道，争先抢后地扑向云存储市场。而对于国内的云存储厂商来说，面临的问题不少，但是发展的空间也更加大。未来会怎样？让我们拭目以待！！

点击阅读全文

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐