etcd常见错误及解决

1."etcdserver: mvcc: database space exceeded"错误只要你使用过 etcd 或者 Kubernetes，大概率见过这个错误。它是指当前 etcd db 文件大小超过了配额，当出现此错误后，你的整个集群将不可写入，只读，对业务的影响非常大。原因：一方面默认 db 配额仅为 2G，当你的业务数据、写入 QPS、Kubernetes 集群规模增大后，你的 etc

github_zwl

9348人浏览 · 2022-01-30 11:47:20

github_zwl · 2022-01-30 11:47:20 发布

1."etcdserver: mvcc: database space exceeded"错误

只要你使用过 etcd 或者 Kubernetes，大概率见过这个错误。它是指当前 etcd db 文件大小超过了配额，当出现此错误后，你的整个集群将不可写入，只读，对业务的影响非常大。

原因：一方面默认 db 配额仅为 2G，当你的业务数据、写入 QPS、Kubernetes 集群规模增大后，你的 etcd db 大小就可能会超过 2G。另一方面我们知道 etcd v3 是个 MVCC 数据库，保存了 key 的历史版本，当你未配置压缩策略的时候，随着数据不断写入，db 大小会不断增大，导致超限。最后你要特别注意的是，如果你使用的是 etcd 3.2.10 之前的旧版本，请注意备份可能会触发 boltdb 的一个 Bug，它会导致 db 大小不断上涨，最终达到配额限制。

解决：

首先当然是调大配额。具体多大合适呢？etcd 社区建议不超过 8G。遇到过这个错误的你

是否还记得，为什么当你把配额（quota-backend-bytes）调大后，集群依然拒绝写入呢?

原因就是我们前面提到的 NO SPACE 告警。Apply 模块在执行每个命令的时候，都会去检

查当前是否存在 NO SPACE 告警，如果有则拒绝写入。所以还需要你额外发送一个取消告

警（etcdctl alarm disarm）的命令，以消除所有告警。

其次你需要检查 etcd 的压缩（compact）配置是否开启、配置是否合理。etcd 保存了一

个 key 所有变更历史版本，如果没有一个机制去回收旧的版本，那么内存和 db 大小就会

一直膨胀，在 etcd 里面，压缩模块负责回收旧版本的工作。

最后你需要注意配额（quota-backend-bytes）的行为，默认'0'就是使用 etcd 默认的

2GB 大小，你需要根据你的业务场景适当调优。如果你填的是个小于 0 的数，就会禁用配

额功能，这可能会让你的 db 大小处于失控，导致性能下降，不建议你禁用配额。