Redis高可用方案

Redis单机部署时，可能因为机器宕机导致整个缓存不可用，此时就需要实现Redis的高可用，那么Redis的高可用方案有哪些呢？

九八婆婆 · 2022-08-20 16:34:31 发布

Redis高可用方案

问题

问题

Redis单机部署时，可能因为机器宕机导致整个缓存不可用，此时就需要实现Redis的高可用，那么Redis的高可用方案有哪些呢？

整体流程：从节点与主节点建立主从关系，主节点全量同步信息至从节点，同步完成后，将增量数据同步至从节点

零、相关数据结构

runId：每个redis节点启动都会生成唯一的uuid，每次redis重启后，runId都会发生变化。
offset：主节点和从节点都各自维护自己的主从复制偏移量offset，当主节点有写入命令时，offset=offset+命令的字节长度。从节点在收到主节点发送的命令后，也会增加自己的offset，并把自己的offset发送给主节点。这样，主节点同时保存自己的offset和从节点的offset，通过对比offset来判断主从节点数据是否一致。
repl_backlog_size：保存在主节点上的一个固定长度的先进先出队列，默认大小是1MB。
从节点发送psync[runId][offset]命令，主节点有三种响应：

一、主从关系建立

二、第一次全量同步

连接建立后，从节点发送 psync ？-1 命令（因为第一次发送，不知道主节点runld，所以为？，因为是第一次复制，所以offset=-1）。主节点发现从节点是第一次复制，返回 FULLRESYNC { runld } { offset }，runld 是主节点的 runld , offset 是主节点目前的 offset
从节点接收主节点信息后，保存到 info 中
主节点在发送 FULLRESYNC 后，启动 bgsave 命令，生成 RDB 文件，生成后将 RDB 文件发送给从节点
主节点发送 RDB 文件给从节点过程中，主节点还会进行一些写操作，这时候的数据存储在复制缓冲区中
从节点清理自己的数据库数据，然后加载 RDB 文件，将数据存到自己的数据库中（如果从节点开启了 AOF，从节点会异步重写 AOF 文件）
主节点把当前缓冲区的写命令同步给从节点后，便完成了全量同步的过程。接下来，主节点就会持续的把写命令发送给从节点，保证主从数据一致性，同时还会将写命令写入复制积压缓冲区，用于增量同步。

三、增量同步

当从节点正在复制主节点时，如果出现网络闪断或者命令丢失等异常情况时，从节点会向主节点要求补发丢失的命令数据，主节点将积压缓冲区数据直接发送给从节点，这样就可以保持主从节点复制的一致性．补发的这部分数据一般远远小于全量数据
主从连接中断期间主节点依然响应命令，但因复制连接中断命令无法发送给从节点，不过主节点内的复制积压缓冲区依然可以保存最近一段时间的写命令数据
当主从连接恢复后，由于从节点之前保存了自身已复制的偏移量和主节点的运行ID，因此会把它们当做 psync 参数发送给主节点，要求进行部分复制
主节点接收到 psync 命令后首先核对参数 runld 是否与自身一致，如果一致，说明之前复制的是当前主节点；之后根据参数offset 在复制积压缓冲区中查找，如果offset 之后的数据存在，则对从节点发送＋ COUTINUE命令，表示可以进行部分复制。因为缓冲区大小固定，若发生缓冲溢出，则进行全量复制。
主节点根据偏移量把复制积压缓冲区里的数据发送给从节点，保证主从复制进入正常状态

主从模式存在一个缺点，一旦主节点宕机，需要人工修改应用方的主节点地址，还需要命令所有从节点去复制新的主节点。这就需要哨兵模式来帮我们自动完成主从切换。

整体流程：哨兵对所有实例进行监听，在需要切换主库时，会在 Sentinel 集群中选举出一个 Sentinel 节点，该 Sentinel 节点会从剩余的从节点中根据策略挑选出一个节点，将它作为主节点，并和其他从节点建立主从联系

一、健康检测

哨兵进程启动运行时，周期性给所有主、从库发送 PING 命令，检测他们是否仍然在线运行。

主库、从库没有在规定时间内响应哨兵的 PING 命令，该哨兵就会把它标记为“主观下线”；

哨兵会询问其他哨兵，当超过一半的哨兵实例判断主库都已经“主观下线” , 主库会被标记“客观下线”；客观下线只适用于主库。

因集群网络压力较大，网络拥塞，哨兵误认为主库下线，易产生脑裂问题

通过引入哨兵集群，集群同时不稳定的概率较小，一起决策降低误判率

二、选举 Sentinel 节点

故障转移并不是所有的 sentinel 共同完成，而是选举出一台 sentinel 节点作为领导者来完成这次故障转移，所以当主服务器被标记为客观下线时，sentinel 之间就会通过 Raft 算法选举出一个领导者来完成故障转移工作。redis 选举领头的 sentinel 的规则和方法大致如下：

所有在线的 sentinel 都有资格被选为领导者，也就是说每个 sentinel 都有成为领导者的机会
当 sentinel 标记主服务器为主观下线时，会向其他 Sentinel 节点发送 sentinel is-master-down-by-addr 命令，要求将自己设置为领导者
收到命令的 Sentinel 节点，采用先到先得的规则，如果没有同意过其他 Sentinel 节点的 sentinel is-master-down-by-addr 命令，将同意该请求，否则拒绝
如果该 Sentinel 节点发现自己的票数已经超过半数，那么它将成为领导者
如果在规定时间内，没有选举出 sentinel 领导者，那么将在一段时间后再次选举，直到选出 sentinel 领导者为止。

三、故障转移

选举出来的 sentinel 领导者将完成故障转移工作，故障转移主要有以下三步