容灾方案概述

容灾需求

在这里插入图片描述

  • 灾备系统建设必要性:灾害无处不在。
  • 来自国际权威机构瑞士 在保险的统计数据
  • 全球在2004年因自然灾害和人为事故造成的直接损失达到1230亿美元
  • 全球2005年共发生约400起巨灾,损失超过2300亿美元
  • 2006年,自然灾害和人为灾难造成的损失低于长期趋势,直接损失480亿美元
  • 在世界范围内与20世纪60年代相比,到了20世纪90年代,世界上可统计的自然灾害发生率增长了3倍,其经济损失增长了9倍
  • 中国近年灾难的影响
  • 2007年8月国务院办公厅印发的《国家综合减灾“十一五”规划》中指出,据估计我国近年来各类灾情综合直接损失已高达8%的GDP(大多数发达国家只是千分之几)
  • 自然灾害的种类是多种多样的,洪涝、台风、干旱等每年给国家带来2000亿元左右的经济损失 --国家减灾委
  • 受汶川地震影响,整个银行业净损失约在50亿~130亿人民币, 没有灾备中心的城商行影响很大,08年银行业净利润下滑0.7%
  • 小概率的自然灾害造成的巨大损失不可忽视。
  • IDC统计:美国在2000年以前的十年间发生过灾难的公司中,有55%当时倒闭,剩下的45%中,因为数据丢失,有29%也在两年之内倒闭,生存下来的仅占16%;
  • 美国明尼苏达大学的研究表明:在遭遇灾难的同时又没有灾难恢复计划的企业中,将有超过60%在两到三年后退出市场。而随着企业对数据处理依赖程度的递增,此比例还有上升的趋势。

容灾挑战

在这里插入图片描述

  • 应用多样,管理不便:企业IT系统中运行的业务系统越来越多,需要作为关键业务进行容灾保护的应用也越来越多,常见的应用有Oracle、DB2、SQL Server、Exchange等,同时IT系统的云化趋势越来越明显,众多的虚拟机也需要提供保护:缺乏统一的管理系统。
  • 流程复杂,耗时易错:不同应用的配置不同,恢复流程各异,配置难度大;业务切换、恢复需要专业人士操作,耗时易错:缺乏自动化的创建和部署流程。
  • 黑盒运行,难以理解:传统业务切换、演练等操作流程都是设备内黑盒运行,缺乏可视效果,难于理解。

HA说明

在这里插入图片描述

  • HA 需要使用冗余的服务器组成集群来运行负载,包括应用和服务。这种冗余性也可以将 HA 分为两类:
  • Active/Passive HA:
  • 集群只包括两个节点简称主备。在这种配置下,系统采用主和备用机器来提供服务,系统只在主设备上提供服务。
  • 在主设备故障时,备设备上的服务被启动来替代主设备提供的服务。
  • 典型地,可以采用 CRM 软件比如 Pacemaker 来控制主备设备之间的切换,并提供一个虚机 IP 来提供服务。
  • Active/Active HA:
    • 集群只包括两个节点时简称双活,包括多节点时成为多主(Multi-master)。
    • 在这种配置下,系统在集群内所有服务器上运行同样的负载。
    • 以数据库为例,对一个实例的更新,会被同步到所有实例上。
    • 这种配置下往往采用负载均衡软件比如 HAProxy 来提供服务的虚拟 IP。
  • Pacemaker是一个集群管理器。它利用首选集群基础设施(OpenAIS 或heartbeat)提供的消息和成员能力,由辅助节点和系统进行故障检测和回收,实现性群集服务(亦称资源)的高可用性。CRM:集群资源管理
  • HAProxy是一个使用C语言编写的自由及开放源代码软件,其提供高可用性、负载均衡,以及基于TCP和HTTP的应用程序代理。HAProxy特别适用于那些负载特大的web站点,这些站点通常又需要会话保持或七层处理。

什么是容灾?

在这里插入图片描述

HA和DR的关系

在这里插入图片描述

容灾和备份的区别

在这里插入图片描述

  • 一般所说的备份采用备份软件技术实现,而容灾通过复制或镜像软件实现,两者的根本区别在于:
    • 备份软件处理后的数据格式不一致,必须恢复后才可使用,而复制或镜像软件处理后的数据格式不发生变化,直接挂载给主机即可使用。
    • 两者的数据保护的周期不一致,复制或镜像的时间周期更短。
    • 一般备份为数据保护的最后一条防线,偏向于归档这个层面更多。

衡量容灾系统的主要指标

在这里插入图片描述

容灾系统的级别说明

在这里插入图片描述

容灾建设等级对标分析

在这里插入图片描述

容灾解决方案全景图

在这里插入图片描述

容灾方案架构

容灾备份解决方案框架

在这里插入图片描述

匹配客户业务和发展策略,提供从战略咨询、容灾规划、业务实施到持续运营管理的专业服务。

容灾设计模式:同步、异步相结合

在这里插入图片描述

分级分层的灾备方案

主备容灾方案

在这里插入图片描述

  • 容灾系统管理可视化:
    • 支持容灾管理软件部署、调测一键式
    • 支持容灾演练和切换一键式,协助完成定制脚本工具能力,协助您一键恢复备用业务系统
  • 容灾服务成熟高效:
    • 容灾系统一站式分析、设计、交付、演练服务
    • 专业化的容灾演练流程和技术方案,具备金融、政府、医疗等20+个容灾演练项目实施经验
  • 支持利旧非华为设备容灾方案实施,降低客户成本40%左右

两地三中心(3DC)容灾方案

在这里插入图片描述

  • 容灾建设周期短,交付风险低
    • 容灾建设周期从10个月缩短到7个月,缩短30%
    • 多厂商配合有效管理,缩短项目交付周期
    • 多业务多应用的有效评估与分析,保障容灾系统快速建设
    • 具有亚洲最大集成验证中心,保障容灾设计有效验证,降低项目实施风险
  • 异地容灾系统管理可视化
    • 支持容灾管理软件的一键式可视化部署、调测
    • 支持对生产中心、同城灾备、异地灾备中心设备的统一管理和监控,简化设备维护
    • 支持一键式容灾演练和切换,客户定制脚本一键恢复备用业务系统,简化灾备系统的管理和维护

双活容灾方案

在这里插入图片描述

  • 双活容灾去网关化,高效实施
    • 业务级“A-A”高可靠,数据中心级故障业务不中断,7*24小时在线
    • 双活存储层无虚拟化网关,减少故障点,简化实施与调测
  • 双活容灾服务经验丰富
    • 丰富的双活容灾实施经验、实现金融、政府、医疗等超过80+双活容灾项目;
    • 业务不停机完成从双活方案到两地三中心方案设计与实施
    • 拥有亚洲最大规模集成验证中心,丰富的IT设备可以对容灾方案进行全面测试验证和远程演示,保证方案设计的完美
    • 丰富的灾备实施经验,有力的专业服务工具支撑,提升容灾方案实施效率,降低TCO达30%

阵列复制容灾方案

在这里插入图片描述

  • 应用场景:
    • 支持一对一容灾或多对一集中容灾
    • 多分支机构数据独立存放,需要建立统一的容灾系统,对各个分支机构进行统一容灾保护。
  • 方案特点:
    • 支持多达31个分支机构;
    • 支持同步/异步复制方式,根据各个分支特点灵活选择
    • 统一管理各分支容灾存储系统;
    • 不同级别阵列可互通复制,降低TCO
    • 支持灵活在线添加/撤除分支站点
    • 结合快照功能,可实现数据的连续保护
  • 客户价值:
    • 容灾资源共享,节约投资
    • 容灾中心维护和管理资源共享,节约维护和管理成本

Oracle数据库容灾

在这里插入图片描述

  • 应用场景
    • 采用Oracle数据库
    • 需建立远程容灾
  • 方案特点
    • 本地高可用、异地容灾
    • 全冗余架构设计
  • 异构硬件兼容
    • 客户价值
    • 对现网环境改造小
    • 维护简单
    • 基于Redo机制复制,对带宽要求低

园区/同城应用级容灾

在这里插入图片描述

  • 应用场景
    • 物理机模式(小型机、X86服务器)
    • 两数据中心距离 <80KM
  • 客户价值
    • 应用自动切换,快速恢复业务
    • 支持应用类型广泛,并可根据客户需要
    • 为应用定制化开发切换脚本
  • 方案特点
    • 实现本地高可用和异地应用级容灾
    • 具有存储开放性,支持异构存储
    • 集群节点可任意组合(集群内主机总数量<=64)

云计算下的新灾备模式演进

在这里插入图片描述

IT的集中化、云化后,对于业务连续性提出更高要求,包括网络要求、数据安全要求、业务可靠性要求。

云主备数据级容灾实现方式

在这里插入图片描述

  • 生产中心与容灾中心独立部署云管理平台(两朵云)
  • 设置同步策略,定期远程复制生产中心的云管理数据和业务数据(VM)到容灾中心
  • 用户在业务规划时,可根据实际需求,在存储上划分两种LUN:保护LUN和未保护LUN,将需要容灾的VM创建在保护LUN上,并只对保护LUN配置阵列复制,以节省容灾中心存储空间的需求。
  • 当生产中心发生故障时,容灾中心通过容灾管理软件一键式恢复虚拟机。

常用容灾技术

容灾主要技术

在这里插入图片描述

  • 基于主机层容灾技术:
    • 在生产中心和灾备中心的服务器上安装专用的数据复制软件,如卷复制软件,以实现远程复制功能。两中心间必须有网络连接作为数据通道。可以在服务器层增加应用远程切换功能软件,从而构成完整的应用级容灾方案。
    • 这种数据复制方式相对投入较少,主要是软件的采购成本;兼容性较好,可以兼容不同品牌的服务器和存储设备,较适合硬件组成复杂的用户。但这种方式要在服务器上通过软件来实现同步操作,占用主机资源和网络资源非常大。
  • 基于网络层容灾技术:
    • 基于 SAN 网络层的数据复制技术则是在前端应用服务器与后端存储系统之间的存储区域网络(SAN),加入存储网关,前端连接服务器主机,后端连接存储设备。
    • 存储网关将在不同存储设备上的两个卷之间建立镜像关系,将写入主卷的数据同时写到备份卷中。
    • 当主存储设备发生故障时,业务将会切换到备用存储设备上,并启用备份卷,保证数据业务不中断。
  • 基于阵列层容灾技术:
    • 存储层容灾主要采用了阵列间的数据复制技术,将数据从本地阵列复制到灾备阵列,在灾备存储阵列产生一份可用的数据副本。当主阵列故障时,可以将业务快速切换到备用阵列,从而最大可能的保障业务的连续性。

主机层容灾技术-应用级

在这里插入图片描述

  • 工作原理:通过在应用软件内部,连接两个异地数据库,每次的业务处理数据分别存入主中心和备份中心的数据库中。
  • 优缺点:
    • 支持广域网;不需要单独的硬件、软件支持;数据逻辑复制,可避免扩散人为错误;对磁盘子系统透明
    • 需定期进行一致性检查;备份中心的备份数据无法快速恢复回主中心;需对应用
      程序作较大修改

主机层容灾技术-数据库级

在这里插入图片描述

  • 工作原理:
    • 配置主数据库服务器和备用数据库服务器
    • 主数据库一旦有事务操作,会同时将日志文件传送到备用数据库,然后备用数据库对接收的日志文件进行重放,从而保持与主数据库的一致性。
    • 当主数据库发生故障时,备用数据库服务器可以接管主数据库服务器的事务处理。
  • 优缺点:
    • 支持广域网;不需要单独的硬件支持;对磁盘子系统透明;实施逻辑复制降低扩散人为错误风险;无须修改应用程序;主中心/容灾中心,数据可以被同时访问。
    • 备份中心的备份数据无法快速恢复回主中心;无法实现非数据库数据的远程复制;同步方式下对生产系统影响大,异步方式下会丢失较多数据,至少丢失一个日志文件;回切流程复杂;生产改造复杂。

主机层容灾技术-逻辑卷级

在这里插入图片描述

  • 工作原理:远程复制控制管理软件将主用节点系统的卷上每次 IO 的操作数据实时(或者准实时或者延时)复制到远程节点的相应卷上,从而实现远程两个卷之间的数 据同步(或准同步)。
  • 优缺点:
    • 确保数据完整性,一致性;结构比较简单;对磁盘子系统透;
    • 主机写操作性能受距离影响较大;容灾中心端无主机时,无法做数据级容灾;无法防御逻辑灾难。

网络层容灾技术

在这里插入图片描述

  • 工作原理:
    • 生产中心主机写入数据到本端虚拟化网关;
    • 生产端虚拟化网关将数据写入到本端日志卷;
    • 日志卷写入数据成功以后,生产中心的虚拟化网关返回“确认” 给本端主机;
    • 生产端虚拟化网关将数据写入本端的生产卷的同时,向灾备端虚拟化网关发出数据写入请求;
    • 灾备端虚拟化网关接收到写入请求后,返回“确认” 给生产端虚拟化网关;
    • 灾备端的虚拟化网关将数据写入到灾备端的复制卷;
    • 数据成功写入到灾备中心的复制卷后,灾备中心的虚拟化网关返回“完成”信号给生产中心的虚拟化网关。
  • 优缺点:
    • 支持异构存储设备;实现虚拟化整合,实现统一管理,提高存储利用率
    • 要改造 SAN 网络

网络层完整空间快照原理

在这里插入图片描述

  • 原理:
    • 完整空间快照技术的实现原理:在快照时间点到来时,系统会为源数据卷分配一个大小完全相同的物理空间作为快照卷,并启动后台数据同步,在同步数据完成后,该时间点快照创建成功。
    • 完整空间快照是源卷快照时间点的数据的物理拷贝。
  • 步骤:
    • 1、创建一个跟源卷大小一致的卷作为快照卷,并开始后台数据同步。
    • 2、在数据同步过程中如果源卷有新数据写入,写入的数据位置为还没有同步拷贝的内容,则将原数据写入到快照卷中 ,新数据写入源卷,保持源卷数据为最新状态; 如写入的数据位置为同步拷贝完成的部分,则只将新数据写入源卷;快照卷数据内容不变。
    • 3、在数据全部同步完成后,快照卷与9:00的源卷数据完全相同,此时快照结束。
  • 说明:
  • 网络层完整空间快照中快照卷可以跨异构阵列,而且可以放在性能等相对低端的阵列上,这样就可以实现阵列间的容灾,同时充分利旧,降低TCO。
  • 当源卷阵列故障时,可以迅速从快照卷阵列拉起服务。

阵列层容灾技术

在这里插入图片描述

SAN同步复制容灾

在这里插入图片描述

  • 部署方式见图,目标RPO=0,RTO分钟级。
  • 基于SAN的容灾复制才支持同步复制,建议100km以内。
  • RD主要提供容灾管理功能,包括拓扑,容灾测试,演练和灾难恢复。
  • 进行应用管理和灾备应用恢复时,服务器上需要安装Agent
  • RD管理网络需要跟主机,存储互通。
  • 支持FC/iSCSI链路,建议同步复制使用FC链路。

SAN同步复制原理

在这里插入图片描述

  • 同步步骤:
    • 生产存储收到主机写请求。HyperReplication将该请求记录日志。日志中只记录地址信息,不记录数据内容。
    • 将该请求写入主LUN和从LUN。通常情况下LUN是回写状态,数据会写入Cache。
    • HyperReplication等待主LUN和从LUN的写处理结果都返回。如果都写成功,清除日志;否则保留日志,进入异常断开状态,后续启动同步时重新复制该日志地址对应的数据块。
    • 返回主机写请求处理结果,以写主LUN的处理结果为准。
  • 分裂:
    • 在分裂状态下,生产主机的写请求只会写到主LUN,并通过差异日志来记录主、从LUN数据之间的差异。当用户希望重新保持主、从LUN数据一致时,可以进行一次手动启动同步操作,同步过程就是将差异日志中标为“有差异”的数据块从主LUN增量拷贝到从LUN的过程,其I/O处理原理与初始同步的原理类似

SAN异步复制容灾

在这里插入图片描述

  • 部署方式见图,目标RPO>3s,RTO分钟级。

  • 与同步复制的差异点,有时间间隔的复制策略,理论无距离限制。

  • RD主要提供容灾管理功能,包括复制策略,拓扑,容灾测试,演练和灾难恢复。

  • 进行应用管理和灾备应用恢复时,服务器上需要安装Agent

  • RD管理网络需要跟主机,存储互通。

  • 秒级复制在存储上触发,15分钟以上的可在RD上触发。
    在这里插入图片描述

  • 时间片:在Cache中管理一段时间内写入数据的逻辑空间(数据大小没有限定)

  • 在低RPO的应用场景下,异步远程复制周期很短,OceanStor存储系统Cache中能缓存多个时间片中的全部数据;如果主机业务带宽或容灾带宽出现异常或故障,造成复制周期变长或中断,此时Cache中的数据会按照刷盘策略自动刷盘并进行一致性保护,复制时再从盘上进行读取。
    1.每当间隔一个同步周期(由用户设定,范围为3s~1440min),系统会自动启动一个将主站点数据增量同步到从站点的同步过程(如果同步类型为手动,则需要用户来触发同步)。每个复制周期启动时在主LUN(LUN A)和从LUN(LUN B)的缓存中产生新的时间片(TPN+1和TPX+1);
    2.主站点接收生产主机写请求;
    3.主站点将写请求的数据写入Cache时间片TPN+1中,立即响应主机写完成;
    4.同步数据时,读取前一个周期主LUN(LUN A)Cache时间片TPN的数据,传输到从站点,写入从LUN(LUN B)Cache时间片TPX+1中;若主站点Cache写缓存达到高水位时会自动将数据从Cache写入硬盘中,此时时间片TPN的数据会在盘上生成快照,同步时已写入硬盘的数据从快照中读取并复制到从LUN(LUN B);
    5.同步数据完成后,按照刷盘策略将主LUN(LUN A)和从LUN(LUN B)Cache中时间片TPN和TPX+1的数据下盘(生成的快照自动删除),等待下一个同步的到来。

  • 切换:

    • 同步远程复制在正常状态下可以进行主从切换;
    • 分裂状态下,需要设置从LUN可写才能进行主从切换。
    • 异步远程复制处于分裂状态;
    • 分裂状态下,需要设置从LUN可写;

NAS异步复制容灾

在这里插入图片描述

  • NAS文件系统复制目前只有V3R2C10版本提供,采用ROW实现。

  • RD的NAS容灾管理不在Linux或者Windows上部署Agent,只管理V3存储的复制策略和容灾恢复。

  • 文件系统当前主要支持NFS/CIFS。容灾管理目前只管理FS复制部分,文件系统和权限控制部分,系统创建时需要配置。

  • 文件系统复制与SAN类似,支持FC/iSCSI链路。
    在这里插入图片描述

  • 每个周期开始时,文件系统异步远程复制创建主FS(主文件系统)的快照,根据上一周期复制完成到本周期开始这段时间内的增量信息,读取快照的数据复制到从FS,增量复制完成后,从FS的内容与主FS的快照内容相同,从FS形成数据一致性点。

  • 可实现文件系统到文件系统的远程复制,不支持目录到目录、文件到文件的复制方式;

  • 同一文件系统只能包含于一个复制任务中,但一个复制任务中可以包含多个文件系统;

  • 文件系统只支持1对1复制,同一文件系统不能即作为复制源又作为复制目的地,不支持级联复制,不支持3DC;

  • 增量复制的最小单位为文件系统块大小(4K-64K);异步复制同步周期最短5分钟;

  • 支持断点续传

异步远程复制多时间点技术-秒级RPO

在这里插入图片描述

  • 最小3秒一个一致性点:
  • 每个复制周期启动时在主LUN和从LUN的缓存中产生新的时间片*(T2, P2)。
  • 主机新写入的数据缓存在主LUN Cache的时间片T2中。
  • 响应主机写完成。
  • 将时间片T1的数据直接复制到从LUN,写入从LUN的时间片P2中。
  • 主从LUN各自将收到的数据下盘。
  • 拷贝直接从Cache读取数据,时延小。
  • 快照不需实时COW更新数据,同步对性能的影响小,周期可缩短到3秒的复制周期。

远程复制-应用-致性

在这里插入图片描述

  • 应用一致性:
    • 在主机上安装一致性代理Agent,实现阵列快照和数据库的联动。
    • 当快照任务执行时:
    • 首先将数据库置于备份模式,执行检查点,将内存中的脏数据全部写入存储系统。
    • 然后通知阵列执行快照。
    • 最后再将数据库脱离备份模式。
  • 优点:
    • 灾备端拉起数据直接使用,无须做Roll forward 和Rollback。

远程复制-致性组

在这里插入图片描述

  • 在大中型数据库应用中,数据、日志、修改信息等存储在阵列的不同LUN中,通常称这种有关联的LUN为非独立LUN,缺少其中一个LUN的数据,都将导致其他LUN中的数据失效。
  • 我们希望可以同时对这些LUN同时进行数据的同步或分裂等操作,以保证多个从LUN之间数据的关联性不变,从而保证容灾备份数据的完整性和可用性。这个技术就是远程复制一致性组技术。
  • 华为阵列的远程复制一致性组内的远程复制的复制对的个数最大值为8,不支持跨阵列一致性组。
  • 注意:有关联关系的LUN的远程复制应放到一个一致性组中,没有关联关系的LUN不要放到一个一致性组中。另外,同步远程复制和异步远程复制不能放到同一个一致性组中。所有远程复制的从LUN必须位于同一台远端存储系统。

几种容灾技术的对比

在这里插入图片描述

典型的容灾演戏方案

在这里插入图片描述

  • 容灾演习流程的特点
  • 真实的容灾步骤演习
  • 通过容灾熟悉灾难恢复流程,锻炼灾难来临时的业务恢复能力
  • 通过容灾演习,检查业务完整性

容灾应用案例

案例1

在这里插入图片描述

  • 面临的挑战
    • XX审计署18个特派办分布于各省,地域分布广,灾备建设投资所需极大,后期工程实施困难;
    • 各特派办技术力量薄弱,难以进行灾备系统维护和演练;
    • 数据量大,对灾备网络要求高;
  • 华为解决方案
    • 18个分支机构分别部署一套存储系统,集中容灾到长沙灾备中心,全系统部署21套中高端阵列,总部署容量超过1PB。
    • 利用华为优势技术32:1的远程复制,在现有网络基础上实现灾备集中共享化。
    • 在长XX市的灾备中心定制演练软件,满足用户对灾备系统维护和演练的要求。
  • 客户价值
    • 分支机构一举两得,既实现了集中存储,又实现了异地灾备,有效保障了数据安全;
    • 原需要40多套存储完成的灾备系统,仅用21套就完成,节约40%以上的投资;
    • 定制化的灾备管理系统,全网灾备系统由审计署信息中心进行集中管理并定期演练,免除管理之忧;
    • 利用华为遍布全球的服务机构,保障了整个系统的工程进度,业务按时上线。

案例2

在这里插入图片描述

  • 面临的挑战
    • 客户已有vSphere虚拟数据中心,需要建设新的数据中心进行容灾;
    • 低TCO,高投资回报
  • 华为解决方案
    • 在灾备中心部署一套IT系统,包括存储、服务、网络和虚拟化平台
    • 在生产和容灾中心按照华为UltraVR容灾组件
    • 虚拟机的宿主机,安装一致性代理ConsistentAgent实现对虚拟机的应用级保护
  • 客户价值
    • 无须改造现网架构
    • 灵活设置灾备策略,一键式恢复
    • 支持容灾演练和灾难回切

案例3

在这里插入图片描述

  • 面临的挑战
    • IT现状难以支撑业务发展需求,难于保障在线业务的持续运行
    • IT运维复杂、能耗高、资源利用率低
  • 华为解决方案
    • 将业务系统迁移到华为云平台
    • 在两个数据中心各部署CDP存储和CDP软件,采用CDP技术实现同城双数据中心的应用级容灾
  • 客户价值
    • 实现弹性资源、资源复用,提高资源利用率,降低运维成本
    • 关键业务RTO和RPO为0,生产中心故障时,业务和数据自动切换到灾备中心,
    • 保障了业务持续性。
Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐