NetApp统一存储双活实施方案
NetAppNetApp 统一存储双活方案统一存储双活方案 ———————————————————————————————— 作者: ———————————————————————————————— 日期: 2 2 NetAp 统一存储双活 方案 NetAppNetApp 统一存储双活方案统一存储双活方案 1 1、双活存储架构建设目标、双活存储架构建设目标 系统灾难是指 IT 系统发生重要业务数据丢失或者使业务系统停 顿过长时间(不可忍受)的事故。可能引发系统灾难的因素包括: •系统软、硬件故障,如:软、硬件缺陷、数据库或其他关键应用 发生问题、病毒、通信障碍等; •机房环境突发性事故,如:电源中断、建筑物倒塌、机房内火灾 等; •人为因素,如:因管理不完善或工作人员操作不当、人为蓄意破 坏、暴力事件等; •自然灾害:如火灾、地震、洪水等突发而且极具破坏性的事故。 其特点是突发性、高破坏强度、大范围。在灾难性事故的影响下, 计算中心机房的硬件设备会部分或完全损坏,造成业务的停顿。 请参见下图: 3 3 当前用户 IT 系统缺乏有效的灾难防范手段,难以在灾难发生后, 不间断或者迅速地恢复运行。灾难恢复就是在 IT 系统发生系统灾难 后,为降低灾难发生后造成的损失,重新组织系统运行,从而保证业 务连续性。其目标包括其目标包括: 保护数据的完整性、一致性,使业务数据损失最少; 快速恢复业务系统运行,保持业务的连续性。 灾难恢复的目标一般采用 RPO 和 RTO 两个指标衡量。 技术指标技术指标 RPORPO、、RTORTO:: RPO (Recovery Point Objective): 以数据为出发点,主要指的 是业务系统所能容忍的数据丢失量。 即在发生灾难,容灾系统接替原 生产系统运行时,容灾系统与原生产中心不一致的数据量。RPO 是反 映恢复数据完整性的指标,在半同步数据复制方式下,RPO 等于数据 传输时延的时间;在异步数据复制方式下,RPO 基本为异步传输数据 排队的时间。在实际应用中,同步模式下,RPO 一般为 0,而在非同 4 4 步模式下,考虑到数据传输因素,业务数据库与容灾备份数据库的一 致性是不相同的,RPO 表示业务数据与容灾备份数据的时间差。换句 话说,发生灾难后,启动容灾系统完成数据恢复,RPO 就是新恢复业 务系统的数据损失量。 RTO (Recovery Time Objective):即应用的恢复时间目标。 RTO 主要指的是所能容忍的应用停止服务的最长时间, 也是是反映业务恢 复及时性的指标,表示业务从中断到恢复正常所需的时间。RTO 值越 小,代表容灾系统的数据恢复能力越强。 各种容灾解决方案的 RTO 有 较大差别,基于光通道技术的同步数据复制, 配合异地备用的业务系 统和跨业务中心与备份中心的高可用管理, 这种容灾解决方案具有最 小的 RTO。容灾系统为获得最小的 RTO,需要投入大量资金。 各种用户的应用对 RTO 要求不同,业务繁忙的关键业务需要较小的 RTO,如果系统恢复时间过长就会影响到业务运行,而许多业务系统 的 RTO 较长,如果一些较小灾难发生在非业务运行时间, 那么对业务 连续性几乎不会造成任何影响。各种容灾解决方案的 RTO 有较大差 别,基于光通道技术存储区域网(SAN)的同步数据复制,配合远程 备用业务系统和跨生产中心与容灾中心的高可用管理系统, 这种容灾 解决方案具有最小的 RTO。相比较而言,普通磁带备份的 RTO 较长, 当灾难发生时需要更长的时间恢复系统。 2 2、双活数据中心的价值和特点、双活数据中心的价值和特点 双活数据中心技术,是目前业界最高级别的数据保护。如果和传 5 5 统容灾技术相比,双活数据中心达到了SHARE 78 中最高的 Tier 6 的 所有要求。除此之外,双活数据中心还有以下特点和优势: 双活数据中心,实际上是跨数据中心的高可用。细分到单个组件 看,形成了跨数据中心的主机高可用、 网络高可用和存储高可用, 实现的是跨数据中心的应用高可用。 双活数据中心具有“故障自愈”的特点,不需要人为干预,发生故 障后,应用自动转移到可以正常运行的部分。而应用的运行不会 受到影响。即 RPO = 0 和 RTO = 0。这是容灾技术完全不能够比 拟的优势。 不同于容灾技术中“主中心-备中心”的主备概念, 双活数据中心具 有“双活”的特点,也就是说,业务可以分担到两个数据中心,同 时运行,互为备份。相对于同步容灾,灾备中心设备往往处于空 转状态,双活数据中心中的所有硬件资源都得到了重复的利用, 避免了投资上的浪费,而网络要求完全是一样的。因此,双活技 术不但降低了成本,而且增加了效率。 双活数据中心的常见架构如下: 两中心为对等配置 两中心之间需要低延迟的高带宽链路连接, 一般需要裸光纤。 xWDM 设备往往被应用来实现链路复用,增加链路利用率 6 6 两中心之间为双活互备工作模式 注:双活存储也可部署在同机房,在这种情况下,双活架构对机房整体故障不具备防范能注:双活存储也可部署在同机房,在这种情况下,双活架构对机房整体故障不具备防范能 力。力。 3 3、、NetAppNetApp 统一存储双活方案概述统一存储双活方案概述 结合业界现有的技术和实施经验,我们建议进一步完善和健全现 有系统架构,全面提升应用系统可用性,满足业务系统需求: •采用存储级别的镜像技术实现双活数据中心, 利用业界领先的 技术,实现数据中心级别的高可用, 可以有效防范各类物理故 障,包括主机故障、网络故障、存储故障、交换机故障、机房 区域故障(不包括机房整体灾难)等; •对于逻辑故障,例如数据库损坏、主机逻辑设备故障,可利用 新购存储的先进技术,提供快速的恢复手段,实现: •RPO 1 小时 •RTO 1 小时 7 7 •对于误操作造成的部分数据丢失, 可利用先进的存储技术, 在 不中断生产库前提下,迅速从历史备份中恢复丢失数据, 消除 对业务的影响。恢复时间可低于 1 小时。 •在双活存储架构建立后,未来进一步构建灾备系统,从而增强 数据的安全性,灾备系统可按降档模式建设, 在满足业务要求 的前提下,避免过度投资。 综合以上的建设要点,可以分析得出,新购存储必须具备以下功 能和技术特点: •具备秒级备份和秒级恢复功能,且该功能不影响生产性能 •对于部分数据恢复,可从多个历史备份副本中选择,将备份库 以只读打开,选择性地恢复数据 •具备双活数据中心技术,获得第三方机构认证,例如 VMware Metro Storage Cluster 认证 结合 NetApp 多年方案经验,我们建议利用统一存储双活 技术,构建同机房的应用级双活系统,具体拓扑图如下: 8 8 统一存储系统构建双活存储系统,共配置48 块 600GB 10K SAS 磁盘和 48 块 2TB 7.2K SATA 磁盘,详细配置如下: NetApp MetroClusterNetApp MetroCluster双活存储节点双活存储节点 A A FAS 6220FAS 6220统一存储统一存储 类型类型模块模块 控制器架构 控制器缓存 硬件硬件 前后