作者:佚名 文章来源:销售部 点击数: 更新时间:2014-08-25 15:12:40
虚拟化和云计算是信息化建设的潮流。虚拟化带来了明显的好处:提高资源利用率、降低硬件成本、提高业务系统的可靠性,并带来更方便的管理。虚拟化的部署后,业务系统的数据都迁移到现有的一台共享存储中,虚拟化集群系统和数据库双机系统共用一台存储。在享受虚拟化的好处时,数据中心现有基础设施也面临着更大的风险——如果这台存储出现故障宕机,业务系统就会停顿,甚至会丢失数据。
华为VIS存储双活容灾解决方案,保证2台存储资源、多台服务器资源都处于运行(Active)状态,双活存储系统同时承载生产业务。一旦任意一台存储(或主机)出现故障,业务均会继续运行,不受影响,且数据在故障过程中无丢失。
对于应用层的存储双活容灾建设,结合虚拟化系统来实现。应用客户端访问应用服务器,应用服务器再访问数据库服务器衡。
如上图为华为存储双活容灾建设组网示意图。
在中心机房2节点华为存储虚拟化网关OceanStorVIS6600T(即Virtual Intelligent Storage,以下简称VIS),同时开启VIS6600T的集群功能,构成2节点VIS集群;新购两台华为S5500T存储系统,2台新存储实现存储数据的镜像与双活。2老的DS5020存储也接入虚拟化存储网关中,用于数据的备份。
VIS集群将两台存储上的空间以共享卷的形式提供给上层主机,通过VIS集群的镜像功能,保证业务数据在两个站点的存储阵列上实时保持一致。将2台数据库服务器构建成存储双活的Oracle RAC集群;应用服务器构建成VMware vSphere集群。
双活的SAN网络分别构建为双冗余的架构:各部署2台FC交换机(可用利旧原有的1台光纤交换机),2台之间构成冗余,保证了站点内SAN链路可以故障切换。网络部分的互通采用数据中心以太网交换机。
对于VIS集群而言,建议部署3块1GB大小的LUN作为仲裁盘,以保证异常场景下的VIS集群仲裁,并建议这3块仲裁盘部署在不同的站点,理想模式为:双活存储各部署1个仲裁盘,选择一个第三个存储再部署1个仲裁盘。VIS集群支持与仲裁盘的连接方式为IP链路或者FC链路。
数据流实现流程简介:
业务写IO下发至Oracle RAC集群的任意一个节点,IO由该节点下发至VIS集群;VIS集群接收到该IO,集群集群优选同一站点的VIS节点处理该IO,并将IO同时下发至两个站点的存储阵列。再由此向上依次返回写成功信号。
业务读IO下发至Oracle RAC集群的任意一个节点,IO由该节点下发至VIS集群;VIS集群接收到该IO,集群优选同一站点的VIS节点处理该IO,并让该读IO仅读取本站点的IO。再由此向上依次返回读成功信号。
存储双活解决方案要求提供双活的存储架构,所有存储节点可并发响应主机I/O请求。方案利用VIS集群技术提供双活的系统架构,最大支持8节点的跨数据中心VIS集群,每个节点以共享卷方式向应用服务器提供无差异的并行访问空间,且并发处理应用服务器的I/O请求,各节点间互为备份,均衡负载。其工作原理如下图所示。
VIS节点间通过心跳网络进行通信,传递集群管理信息和业务调度信息。
该设计具有以下优势:
高可用性
当一个或多个VIS节点发生故障时,剩余节点会快速地感知并自动接管故障节点的业务,保证业务连续运行。
均衡负载
通过持续监视主机到VIS各节点的路径,将I/O请求平均分配到各路径,优化系统的整体性能。
在线扩展
支持在线动态扩展节点,新增节点加入时,自动检测和同步相关的配置信息,便捷地完成集群的节点扩展,整个过程不影响现网业务的运行。
存储双活解决方案必须保证任一存储发生灾难时,另一存储有相同数据可供访问。方案利用VIS镜像卷技术,保证两个存储阵列之间数据的实时同步。由于VIS镜像卷技术对主机层透明,当任一存储阵列故障时,镜像阵列无缝接管业务,数据零丢失,业务零中断。VIS镜像卷配置对象关系图如下所示。
VIS镜像的写I/O流程如下:
1) 写请求到镜像卷;
2) 镜像卷将请求复制为两份下发到两中心的镜像数据盘;
3) 镜像数据盘返回写操作完成;
4) 镜像卷返回写I/O操作完成。
VIS镜像的读I/O流程如下:
1) 读请求到镜像卷;
2) 镜像卷根据读策略下发请求到其中一个中心的镜像数据盘;
3) 镜像数据盘返回读数据;
4) 镜像卷返回读数据。
当单阵列故障时,镜像卷选取正常数据中心的阵列响应主机I/O,并采用差异位图盘记录故障期间数据的变化情况,待故障修复后同步增量数据,降低同步过程的时间成本和带宽成本。
华为存储双活解决方案提供了跨数据中心的存储双活平台,上层可支持各主流集群和应用系统。
运行Oracle RAC应用,由华为存储双活解决方案的共享卷技术,为Oracle RAC提供共享存储,使得RAC节点可构成一个RAC集群;并配合Oracle监听器和Oracle透明应用程序故障转移(TAF)技术,可实现客户端在数据中心间业务双活访问和负载均衡,即使是在服务器或单存储故障时,客户端也能够在新的连接中继续工作,防止业务中断。
存储双活方案网络建设主要包含2个部分:集群互连的心跳网络以及数据复制网络。这两张网络均是大二层互通的。
为保障方案的可靠性,华为同城双活方案采用数据传输链路与心跳链路分离设计的原则。做到业务与集群心跳分离,互不影响。且均采用FC链路搭建这两张网。
心跳网络
心跳网络主要包含Oracle RAC集群、VMware vSphere集群和VIS集群心跳。为保证单链路故障时,业务无影响,建议心跳网络采用全冗余设计,Oracle RAC和VIS集群各节点都配置两个用于私有网络的IP端口,采用双交换机组网,确保节点间有两条独立链路互通;VMware集群各节点可以复用管理IP端口,采用双交换机组网,确保节点间有两条独立链路互通,同一集群的心跳的两条链路需要物理隔离,避免出现心跳耦合。
Oracle要求RAC的两条私有链路的端口分别是不同网段。
VIS集群、VMware集群的心跳链路的端口必须为同一网段。
数据复制网络
存储双活方案中的数据镜像采用FC通道传输,链路带宽需求,与需要在两存储间同步的数据量相关,要求链路带宽大于业务系统高峰期的数据写带宽。
华为存储双活方案部署Oracle RAC应用及VMware vSphere集群应用,各故障场景下业务切换、业务影响和故障恢复情况如下表所示。运行Oracle应用业务,部件VIS、阵列、服务器、单数据中心及站点间链路故障时,都可以做到业务自动切换,业务不中断;运行VMware应用业务,部件VIS、阵列和站点故障时,都可以做到业务自动切换,虚拟机自动运行,在服务器、链路故障和单存储故障时,虚拟机重启,客户端业务重新连接。
故障场景 |
测试用例 |
故障切换情况 |
---|---|---|
部件故障 |
所有服务器故障 |
Oracle业务无影响, RAC集群自动切换,业务自动访问另外一个站点RAC节点; VMware虚拟机在另一站点自动重启,业务恢复 |
VIS故障 |
业务主机IO自动切换到状态正常的VIS节点 |
|
阵列故障 |
VIS集群IO自动切换切换到状态正常的存储阵列 |
在各故障场景中,故障恢复后,故障节点自动加入VIS集群、Oracle RAC及VMware vSphere集群,故障节点自动恢复承载业务,集群各节点间业务负载均衡。
故障恢复如下表所示:
故障场景 |
测试用例 |
故障恢复情况 |
---|---|---|
部件故障 |
所有服务器故障 |
主机故障节点自动加入Oracle RAC集群和VMware vSphere集群,分担业务负载 |
VIS故障 |
VIS故障节点自动加入VIS集群,分担主机业务负载 |
|
阵列故障 |
VIS中手动修复镜像对关系,数据自动增量同步 |
方案价值
本方案通过引入虚拟化网关设备的方式构建一个开放式的双活平台,可以带来如下好处:
灵活数据访问
• 两存储、网络和应用各层级都以存储双活的方式对外提供服务,Oracle业务就近访问,自动负载均衡,为用户提供更加灵活的数据访问方式;
• 支持虚拟机支持在线迁移,保证系统维护时业务零中断;
• 配置VMware DRS功能,可实时监控集群内各主机的资源利用情况,自动实现负载均衡。
高效资源利用
• 双存储以双活的方式共同对外提供服务,系统资源得到充分利用;
• 华为存储的虚拟化技术,可统一接管不同厂商、不同品牌的存储设备,充分利用现有存储设备资源,保护客户投资;
• 华为存储的快照技术,可为用户提供可靠性验证、报表统计、业务查询等功能;
• 结合VMware虚拟化技术,整合主机资源并优化分配,提高系统资源利用率。
高可用性
• 双存储的数据实时镜像,任一存储故障,另一存储可自动接管业务,RPO=0,RTO=0;
• 华为存储的快照技术,可防止人为误操作导致的数据错误或者丢失,保护数据完整性;
• 华为存储提供的共享卷技术,为跨数据中心的Oracle RAC和VMware HA提供了必要前提,当任一数据中心故障时,业务快速迁移到另一数据中心,减少业务中断时间。
统一管理
• 华为存储统一管理平台,提供灾备设备、资源和业务的集中管理,并从流程上简化复杂的灾备业务配置,实现端到端业务监控,同时实时地展现系统状态,如数据状态、复制状态等。