【51CTO.com快译】当网络出现故障时,很多企业的业务就会中止。对于某些人来说,几分钟的停机时间无关紧要。对于那些业务面向客户的企业来说,几分钟的停机时间意味着损失大量收入,甚至可能会失去客户。对于这些企业来说,设计一个即使出现组件故障也能保持正常运行的网络至关重要。
对于即使出现短暂的停机也会产生重大影响的企业来说,必须添加冗余设备,并签订冗余服务合同。但是添加网络冗余设备将会增加成本和复杂性,因此必须对停机成本与添加设备和服务的成本进行权衡。
以下是企业的网络团队在网络冗余设计时需要考虑的七个因素:
1.交换机和路由器
交换机和路由器通常非常可靠,但它们有时会出现故障。一些企业会在机架上保留一台额外的交换机或路由器,这样他们就可以快速更换出现故障的设备。而具有更关键需求的企业必须在网络中启动并运行冗余设备。
2.网络协议
网络标准机构开发了网络协议,可以在发生故障时快速切换到备份的设备。在第二层添加冗余时需要IT团队将多个交换机连接到每个子网段。
但这些冗余的交换机如在网络中创建了多条路径,可能导致网络泛滥,每个数据包并产生多个副本。生成树算法提供了一种确定通过网络单条路径的方法。不幸的是,生成树可能需要将近一分钟的时间才能确定一条新路径。虽然此这一段时间对于某些网络来说可能是可以接受的,但其他网络需要更快速的恢复。
如今,已经开发出多系统链路聚合(MLAG)、多链路透明互连(TRILL)和最短路径桥接(SPB) 的新协议以支持更快的恢复。设计网络冗余并需要更快恢复的网络团队必须确定哪种选项更适合他们的网络。
在网络设计中添加冗余时不要忘记的七个因素
3.子网连接
添加冗余的下一步是子网连接。同样,企业有必要在子网之间提供多条路径。路由器将网络内的子网连接到外部目的地。每个子网必须连接到多个路由器以提供冗余。开放最短路径优先(OSPF)和增强型内部网关路由协议(EIGRP)等协议定义了路由器如何相互通知到每个目的地的当前最佳路径。
路由器在几秒钟内未收到来自该路由器的更新时,可以确定相邻路由器已关闭。但是,开放最短路径优先(OSPF)和增强型内部网关路由协议(EIGRP)都需要比某些网络可以接受的更多时间来恢复。热备用路由器协议(HSRP)和虚拟路由器冗余协议(VRRP)可用于减少从路由器故障中恢复所需的时间。
网络连接断开的原因有很多——例如,有人拔错了线缆,或添加新线缆时连接松动,或者在移动设备时不小心碰到线缆。IEEE802.3ad链路聚合定义了如何将两条网线用于单个连接。只要都已经连接,就可以在两条网线之间共享流量,但当一条网线断开连接时,其流量并不会中断。
4.备份
导致数据丢失的磁盘故障会使企业的业务瘫痪。对于某些企业来说,每天备份一次就足够了,而其他企业则无法接受一天的数据丢失和恢复所需的时间。
独立磁盘冗余阵列(RAID)可防止一块磁盘出现故障,并提供多种级别的保护。每一项数据都可以写入两块不同的磁盘。更高的保护级别定义了添加额外磁盘和奇偶校验信息的方法,这使IT团队能够在应该包含相同数据的两个磁盘在不同的情况下恢复正确的数据。
连续云备份优于最高的RAID级别,因为将每个数据更新发送到云中意味着不会丢失任何数据。单个RAID磁盘安装在一台机柜中,这意味着如果机柜受损可能会导致里面的磁盘损坏。与此同时,用户仍然需要定期备份阵列,但最近一次备份后积累的数据可能会丢失。
5.处理器
处理器也会像其他组件一样出现故障,因此在网络冗余设计中也要考虑出现故障的可能性,处理器还必须为最新的系统软件版本定期更新。企业需要有足够的额外处理器资源来保证网络的连续运行。
将所有处理和存储工作移至公共云可以简化冗余设计任务。云平台中有很多处理器和存储单元,如果应用程序发生故障可以快速移动到另一个处理器进行处理,并且可以配置冗余存储。如果发生某个事件导致整个设施关闭,则处理过程可能会转移到其他的云计算基础设施。
6.电源
显然,IT设备没有电源就无法工作,由于暴风雨、电线杆被汽车撞倒或其他突生事件,数据中心的电力可能会中断。发生故障时,数据中心的备用电源可以快速接管,对于大型数据中心设施来说,需要配备适当的UPS电源。
由于切换到柴油发电机需要一些时间,但如果停电的持续时间超过UPS电源的电池容量,可以启动备用柴油发电机为负载提供电力。在某些情况下,数据中心还可以连接两条不同的电力线路,以防止其中一条电力线路损坏而断电。
7.广域网和SD-WAN
WAN连接一直很重要,但云计算的增长和远程用户的重要性使得WAN的可靠性变得越来越重要。企业的一种选择是获得与两家不同网络服务提供商的连接。虽然这会增加运营费用,但它可以防止连接到网络服务提供商的链路发生故障以及提供商网络内的故障。
软件定义WAN(SD-WAN)提供了一种额外的方式来添加网络冗余。多协议标签交换(MPLS)线路非常可靠,可以保证指定的服务质量(QoS)水平,但它们也可能出现故障。SD-WAN控制器可以在发生故障时将流量切换到公共互联网。公共互联网并不提供相同级别的可靠性或服务质量(QoS)保证,但它提供了一种将数据传送到目的地的方法。SD-WAN的另一个优势是它可以在负载峰值期间将不太重要的流量转移到公共互联网,而不是促使IT团队订购最高的MPLS带宽水平。
添加冗余设备将会增加费用和复杂性,网络设计人员不应设计超过必要的网络冗余,但也不能设计低于要求的网络冗余,因为即使是短暂的中断也可能决定业务的成败。
原文标题:7 factors to consider in network redundancy design,作者:David Jacobs
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】