当前位置：首页 > Ubuntu > 正文

Ubuntu集群灾难恢复计划（从零开始构建高可用容灾体系）

主机测评网
Ubuntu
2025-12-03
768

在现代IT基础设施中，Ubuntu集群被广泛用于提供高性能、高可靠性的服务。然而，硬件故障、网络中断、人为误操作甚至自然灾害都可能造成服务中断。因此，制定一套完善的灾难恢复计划至关重要。本教程将手把手教你为Ubuntu集群设计并实施一个简单但有效的灾难恢复方案，即使是Linux新手也能轻松上手。

什么是灾难恢复？

灾难恢复（Disaster Recovery, DR）是指在发生重大系统故障或数据丢失后，快速恢复业务运行和数据完整性的过程。对于Ubuntu集群来说，这意味着即使某个节点宕机或整个数据中心不可用，服务仍能继续运行或在短时间内恢复。

Ubuntu集群灾难恢复计划（从零开始构建高可用容灾体系） Ubuntu集群灾难恢复高可用性系统备份第1张

灾难恢复计划的四大核心要素

备份策略：定期备份关键数据和配置文件。
冗余设计：通过多节点实现服务高可用。
故障检测与切换：自动识别故障并切换到备用系统。
恢复演练：定期测试恢复流程是否有效。

步骤一：配置系统与数据备份

首先，我们需要对集群中的每个节点进行关键数据备份。推荐使用 rsync 和 tar 工具结合定时任务（cron）实现自动化备份。

以下是一个备份脚本示例（保存为 /root/backup.sh）：

#!/bin/bashDATE=$(date +%Y%m%d)BACKUP_DIR="/backup"# 创建备份目录mkdir -p $BACKUP_DIR# 备份重要配置文件tar -czf $BACKUP_DIR/etc_$DATE.tar.gz /etc# 备份用户数据（假设在 /var/www）tar -czf $BACKUP_DIR/www_$DATE.tar.gz /var/www# 使用 rsync 同步到远程备份服务器（需提前配置SSH密钥）rsync -avz $BACKUP_DIR/ user@backup-server:/remote/backup/ubuntu-cluster/# 删除7天前的本地备份find $BACKUP_DIR -name "*.tar.gz" -mtime +7 -delete

然后，设置每日凌晨2点自动执行：

crontab -e# 添加以下行0 2 * * * /root/backup.sh >> /var/log/backup.log 2>&1

步骤二：搭建高可用集群（HA）

使用 keepalived 或 Pacemaker + Corosync 可以实现服务的自动故障转移。这里我们以简单的 keepalived 为例，实现虚拟IP（VIP）漂移。

在主节点和备节点上安装 keepalived：

sudo apt updatesudo apt install keepalived -y

主节点配置（/etc/keepalived/keepalived.conf）：

vrrp_instance VI_1 {    state MASTER    interface eth0    virtual_router_id 51    priority 100    advert_int 1    authentication {        auth_type PASS        auth_pass yourpassword    }    virtual_ipaddress {        192.168.1.100/24    }}

备节点配置只需将 state MASTER 改为 BACKUP，并将 priority 设为 90。

启动服务：