一、 背景
随着企业系统信息化程度的提高,系统的安全可靠问题越来越突出。这些企业信息系统对整个企业的运营和发展起着至关重要的作用,一旦发生宕机故障或应用停机,将给企业带来巨大的经济和声誉损失。
二、 服务器高可用技术方案
基于存储的双机集群系统
基于共享存储模式的双机集群系统,通过在两台服务器上运行高可用性软件(双机软件或集群软件)和共用存储来实现。它使用存储作为两台服务器的共用存储设备,通过双机软件对存储进行管理,同时对受保护的服务进行监控和管理。任何一台服务器运行一个应用时,应用数据存储在共享的数据空间内,每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。
共享存储集群方式
优点:实现真正意义上的数据与系统分离,系统整体效率高,存储系统升级扩容方便。
一、 方案介绍
1.1 双机热备简介
双机热备针对的是服务器的临时故障所做的一种备份技术,通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。
1.2 集群技术
集群(Cluster)技术是指一组相互独立的计算机,利用高速通信网络组成一个计算机系统,每个群集节点(即集群中的每台计算机)都是运行其自己进程的一个独立服务器。这些进程可以彼此通信,对网络客户机来说就像是形成了一个单一系统,协同起来向用户提供应用程序、系统资源和数据,并以单一系统的模式加以管理。一个客户端(Client)与集群相互作用时,集群像是一个独立的服务器。计算机集群技术的出发点是为了提供更高的可用性、可管理性、可伸缩性的计算机系统。一个集群包含多台拥有共享数据存储空间的服务器,各服务器通过内部局域网相互通信。当一个节点发生故障时,它所运行的应用程序将由其他节点自动接管。
其中,只有两个节点的高可用集群又称为双机热备,即使用两台服务器互相备份。当一台服务器出现故障时,可由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续对外提供服务。可见,双机热备是集群技术中最简单的一种。
1.3 为什么要采用双机热备
数据服务器是要长年累月工作的,且为了工作上需要,其备份工作就绝对少不了。用户为了避免服务器故障产生数据丢失等现象,都会采用RAID技术和数据备份技术。但是数据备份只能解决系统出现问题后的恢复;而RAID技术,又只能解决硬盘的问题。我们知道,无论是硬件还是软件问题,都会造成数据服务的中断,而RAID及数据备份技术恰恰就不能解决避免服务中断的问题。
要恢复服务器,再轻微的问题或者强悍的技术支持,服务器都要中断一段时间,对于一些需要随时实时在线的用户而言,丢失业务数据就等于丢失金钱,损失可大可小,用户是很难忍受服务中断的。因此,就需要通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。
二、 方案设计特点
¨ 高性能:由于服务器作为核心设备,要对系统内的所有用户服务,所以在选型时首先需要考虑的是服务器性能是否能够满足用户的应用。
¨ 可用性:在双机方案中服务器涉及关键数据资料,因此必须要考虑到服务器的可用性。一般来讲,单台服务器的可用性通常需要考虑到关键部件的冗余。还有双机方案是否合理,服务响应是否及时。
¨ 可管理性:可管理性直接影响到企业用户使用工业标准服务器的方便程度。良好的可管理性主要包括人性化的管理界面;硬盘、内存、电源、处理器等主要部件便于拆装、维护和升级;具有方便的远程管理和监控功能;具有较强的安全保护措施等。在正常的情况下,系统必须支持这几类部件有可能出现故障时的隐患提示信号,如硬盘故障隐患提示、电源故障隐患提示等。
¨ 可扩展性:应考虑系统的可扩展能力,即系统应该留有足够的扩展空间,以便于随业务应用增加对系统进行扩充和升级。可扩展性主要包括处理器和内存的扩展能力、存储设备的扩展能力以及外部设备的可扩展能力和应用软件的升级能力,等等。
三、 实现方案
3.1 方案说明
系统连接:
双主机通过一条TCP/IP网络线相连。
双主机通过SAN光纤交换机与磁盘阵列光纤通道主机端口相连。
工作描述(两台服务器):
正常工作:主机A为Master,主机B为Slave,主机A处理作业和数据,主机B作为热备份服务器。
故障切换: 主服务器故障后,备份服务器自动接管主服务器的作业和数据,备份服务器同时自动接管绑定在主服务器上的虚拟主机名(Host)及虚拟网络地址(IP)。
数据恢复:主服务器的客户(Client)可以继续运行,无需要重新启动机器,主服务器修复好以后,再将备份服务器上的作业和数据切换到主服务器。
工作方式:
active/standby:受MSCS保护的一对服务器一台处于工作状态,提供某种应用。而另一台处于备援状态,随时准备接管主服务器的工作。
active/active:受MSCS保护的一对服务器均处于工作状态,分别提供不同的应用。同时,均作为对方所提供应用的备援,随时准备在对方出现故障时,接管对方工作。
主要优势:
●避免了双机镜像的系统及网络开销,有效地降低系统及网络负荷。
●将数据库放置于共享的磁盘阵列柜上,通过RAID技术保证数据的可靠性,当一台服务器提供服务时,直接在存储设备上进行读写。而当系统切换后,另一台服务器也同样读取该存储设备上的数据。它可以在无人值守的情况下提供快速的切换,保证不会有数据丢失现象。
●使用高性能的PC服务器,与具有光纤通道的磁盘柜连接,大大提升数据的存取速度。
3.2方案拓扑说明
本次系统分别配置2台高性能服务器构建双机系统,通过SAN交换机连接SAN共享存储,实现数据的集中存储。两台服务器之间可以采用互备、主从、并行等不同的方式,同时运行双机热备软件,一台服务器除正常运行自机的应用外,同时又作为对方的备份主机;两台主机系统在整个运行过程中,通过“心跳线”相互监测对方的运行情况(包括系统的软硬 件运行、网络通讯和应用运行情况等);一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会立即停止运行,备机(故障机的备份机)就会立即在自 己的机器上启动故障机上的应用,把故障机的应用及其资源(包括用到的 IP 地址和磁盘空间等)接管过来,使故障机上的应用在备机继续运行;应用和资源的接管过程由双机软件自动完成,无需人工干预;降低硬件宕机时间,保证系统正常运行。
四、 双机热备软件介绍
ROSE HA是美国ROSE Datasystem Inc.出品的新一代高可用性软件,它可以将Windows服务器组成集群系统,并对服务器进行监控、故障检测、故障恢复,保护运行于服务器中的关键性数据服务和网络服务。对于在客户机/服务器环境中的网络及数据库中集成的高可用需求,ROSE HA 提供了非常灵活而且适用的解决方案。
1、ROSE HA 的主要功能特点
●界面友好
ROSE HA 提供了友好直观的图形安装界面和监控管理界面。通过直观而又方便的JAVA Applet管理界面,用户可以交互式地对集群系统进行配置、监控和管理,并可以利用Applet的网络特性,通过网络对系统进行远程管理。支持Active-Active模式和Active-Standby模式,ROSE 高可用性软件支持Active-Active模式和Active-Standby模式。用户可指定每台服务器的作用(active or standby),指定要监控的服务和硬件部分,定义指定的服务发生故障后要采取的进一步行动(如是否重新启动该服务、允许的最大启动时间等)。
●支持多条心跳路径
可以将网线和RS-232串口线作为在集群系统上运行的ROSE HA的心跳线。配置多条心跳路径可以避免系统的单点故障。
●自动切换
当系统出现故障时(如:系统宕机、HA进程/应用进程被杀掉、RS-232/SCSI/网络线缆断开),ROSE HA 将确定由于某种故障而终止的应用,并将这些应用切换到备份服务器上。而故障服务器中未受影响的应用不会被切换,既不会受任何影响。
●自动检测
在集群系统的每一台服务器内,ROSE HA 具有两个核心进程,他们互相监控(如:系统宕机、HA进程被杀掉、RS-232、网络、SCSI线缆是否断开),如果其中一个进程失败,另一个进程会立即进行恢复。
2、 ROSE HA其它高可用性能
为了对系统实现有效的保护,要求HA软件要能够检查出可能发生的系统/网络故障。为了构造一个高可靠的集群系统,ROSE HA 从多方面提供了完整的解决方案,包括管理,监控,检测和恢复。
●服务器可靠性
在服务器出现故障(如掉电或宕机)时,另外一台服务器接管故障服务器上运行的所有的关键性应用。
●网络可靠性
如果服务器的网络部分发生故障,会导致客户不能连接和访问到服务器,这同样是致命的故障。如果该服务器配备了冗余的网络接口,ROSE HA 会使用它来恢复网络连接。在没有配备冗余的网络接口,或者所有的网络接口均出现故障时,HA会将该应用切换到另外一台服务器上。切换完成后,客户在短暂的切换过程后能够继续访问所需的服务。
●磁盘可靠性
需要将应用的全部数据存储在两台服务器都能访问到的共享磁盘中。建议使用磁盘阵列来存储数据,这样可以避免单点失败,而且便于对系统的容量进行扩充。对由Volume Manager管理的磁盘阵列,ROSE HA提供了相应的处理程序,以保证磁盘阵列及数据的可靠性。
●文件系统可靠性
Windows标准的文件系统(UFS)并未考虑到高可用性系统的需求,使用UFS的服务器在宕机、掉电等非正常关机后,会导致文件系统中数据的丢失和冲突。建议在高可用系统中尽量使用改进的VxFS或jUFS,它们能够对文件系统的修改和更新进行记录,在出现错误时,文件系统能够自动地检测并进行快速的恢复。
●应用可靠性
在高可用性系统中可以运行多个应用。每一个应用是作为一个服务而存在的。在服务器中,当某个服务失败而其它服务正常运行时,ROSE HA将处理这个失败的服务。在将这个服务切换到另一台服务器上时,该服务器上运行的服务也不会受到影响。对于与网络不相关的纯数据应用,只需要切换数据存储和数据处理软件。而在与网络相关的客户机/服务器应用,除了要切换数据存储和数据处理软件外,还需要切换相关的虚拟IP。如果希望两个服务独立地进行切换,则此两个IP地址不能相同。如果使用了相同的IP地址,在发生切换时,ROSE HA会将所有使用该IP的服务都切换到另外一台服务器上去。