TaurusDB库表时间点极速恢复，大幅缩短数据恢复时间

尤其针对游戏业务等需要频繁回档的场景，将大幅度缩短因数据恢复导致的停服时间。

华为云开发者联盟

413人浏览 · 2024-12-18 16:21:36

华为云开发者联盟 · 2024-12-18 16:21:36 发布

经过多组实验对比，对于大实例下仅需恢复几张表数据的情况，有显著优化效果。尤其针对游戏业务等需要频繁回档的场景，将大幅度缩短因数据恢复导致的停服时间。后续我们将逐步在公有云上开放此特性，以惠及更多用户。

本文分享自华为云社区《【华为云MySQL技术专栏】TaurusDB库表时间点极速恢复》，作者：GaussDB 数据库。

1.背景介绍

云上客户经常出现误删表、删库等操作。针对这类问题，业界普遍提供库表级恢复方案。首先，在后台将选中时间点的全量数据和增量数据恢复至一个临时实例，然后，自动导出用户需要恢复的表，再将这些表恢复至原实例，以此降低对原实例的影响。

然而，为了确保数据完整性，这一过程通常涉及整个实例的完整恢复，较长的恢复时间导致客户对该方案不甚满意。尤其是当恢复的表数据量远小于整个实例时，如恢复3T实例中仅20M的表，却需先完成整个3T实例的PITR（Point-in-Time Recovery，时间点恢复），再进行表数据的导入导出，不仅效率低下，而且合理性存疑。

针对以上问题，TaurusDB结合自身架构特点，通过优化表级恢复流程，推出表级极速恢复方案，做到恢复时间仅和待恢复表数据量有关，而非整个实例的规模，从而大幅降低RTO，提升服务可用性。

2.原理介绍

2.1多区间分段下载

TaurusDB云原生数据库采用计算与存储分离架构，其备份原理参考官网TaurusDB备份原理_云数据库 TaurusDB_华为云

TaurusDB存储的最小管理单元被定义为64MB的plog。在plog上，页面数据以16KB的粒度离散存储。为了实现细粒度的数据恢复，需要基于华为云对象存储服务（OBS）所提供的多RANGE下载能力。

如图1所示，我们将分散在多个plog上的表数据下载下来，再合并成一个新plog，并在log directory中完成位置更新。

2.2 表空间存储映射

TaurusDB在存储侧的管理单元被称为slice，在计算侧由SliceManager模块管理从[tablespace id, pageno]到slice的映射关系，每个slice在逻辑上被分配10G存储空间。

如图2所示，对于tablespace id为8的表，我们仅需要恢复slice1和slice3.

这组关系会被持久化到文件中，用于重启后的继续查询。当然，备份模块也需要在恢复时更新相关的slice信息，以确保恢复后表映射到新创建的slice上。

2.3 表空间变化记录跟踪

通过上面介绍，我们知道可以根据需要恢复的表tablespace id，识别出需要恢复哪些slice中的对应的plog中的表数据，但实际上客户在使用表级恢复时，通常提供的是表名信息，因此需要了解表名与表tablespace id之间的映射关系。这组映射关系可以通过INNODB_TABLESPACES 表实时查询，但drop , create , rename等DDL操作会更改表的tablespace id，因此，在实际操作中需要注意这一点。