贺:中科易存中标大屯煤电(集团)有限责任公司国产化服务器灾备项目!

容灾演练、应急预案

容灾系统灾难演练是验收过程中非常重要的一个环节,成功的灾难演练即证明了容灾系统的可靠性,也最大程度保证了真正发生灾难时容灾系统能够正常顶用。但演练过程同样隐含了较多的风险,稍有失误轻则演练失败重则造成业务暂停或数据丢失事故。本文档旨在规范演练过程,并且使得风险在预先定义的流程框架之内降到最低限度。

一、演练流程

● 调研所有可能会涉及到的网络拓扑结构。

● 咨询所涉及业务系统权威技术人员,探讨如何保证业务系统切换后的正常运行。

● 初步制定演练方案。

● 和客户商量选择非业务时段或非业务繁忙时段进行演练操作。

● 调优后形成最终演练方案并让客户方负责人确认。

● 根据最终演练方案进行正式演练前的模拟测试工作(比如使用业务系统客户端连接备机数据库)。

● 待一切准备就绪,进行正式演练工作。
 

二、演练规范

● 客户的数据事关重大,必须拥有强大的责任心。

● 沉着冷静,切勿心急心慌。

● 在未经确认安全之前,就算是客户的指令也不能执行。

● 完全按照流程逐项完成演练工作,不能自由发挥。

● 遇到不确定的问题必须反馈至公司后台支持部门,群策群力。

● 对客户明确演练过程中可能会遇到的各种潜在风险以及后果,一定要让客户对演练的风险问题引起重视。

● 禁止在业务繁忙时刻进行演练工作。

● 尽可能争取更多的业务可暂停时间窗口,如有必要请在深夜进行演练工作。
 

三、演练中的易出错点

● 由于硬件环境的变化导致备机启用后无法正常工作可能的原因有:

● IP地址未正确漂移或被冲突。

● 备机和生产机分处在两个网段或不同的物理内网中,需预先设置好防火墙、网关及路由配置。

● 备机硬件性能准备不充足,在业务切换到备机后由于处理效率降低造成前台业务响应等待时间极具增大。

● 由于业务系统的原因造成备机启用后无法正常工作可能的原因有:

● 业务系统拥有license验证机制,特别是和服务器硬件特征有关的验证机制更需要尽早和业务系统提供商取得联系以便备机业务系统能够正常运行。

● 业务系统之间有紧密协作关系需特别注意。这类环境很容易在条件稍有变化之后使得系统之间的协作关系造成阻碍。

● 业务系统的运行不仅依赖数据库数据还依赖存储中的数据,但备机未挂载对应的存储数据。

● 备机的操作系统或数据库用户账户或对应权限未和生产机同步。