15 / 21

数据库恢复 | 自在学

数据库恢复

在数字化时代，数据就是企业的生命线。我们的数据库系统需要保证两个最重要的特性：原子性和持久性。原子性意味着一个事务要么完全成功，要么完全失败，不能出现半成品状态。持久性则确保一旦事务成功提交，数据就会永久保存，不会因为任何故障而丢失。

数据库恢复

数据库恢复系统不仅要能修复损坏的数据，更重要的是要提供高可用性——也就是说，系统停机的时间必须尽可能短，让业务能够快速恢复正常运行。

让我们通过一个具体的例子来理解这个概念。假设你正在网上银行进行转账操作，从储蓄账户转1000元到信用卡账户。这个看似简单的操作实际上包含两个步骤：从储蓄账户扣除1000元，然后向信用卡账户增加1000元。如果在执行过程中系统突然崩溃，会发生什么呢？

如果没有恢复系统，钱可能就这样凭空消失了——储蓄账户少了1000元，但信用卡账户却没有收到这笔钱。这种情况在现实中是绝对不能接受的。

故障的分类与应对

数据库恢复系统必须具备准确识别和分类各类故障的能力，并针对不同类型的故障采取适用的应对与恢复策略。通常，数据库系统面临的故障可划分为以下几个主要类别。

事务级故障

事务级故障是指单个事务在执行过程中由于某些原因导致失败，但不影响数据库系统中其他事务的正常运行。按照产生原因，事务级故障主要可分为以下两类：

逻辑错误：通常由用户操作不当或应用程序逻辑缺陷引发。例如，用户在ATM机上输入错误的密码，或者尝试提取超过账户余额的金额。系统在检测到此类非法或不合理操作后，会主动中止当前事务，并撤销已对数据库造成的全部更改，确保数据库一致性不被破坏。
系统错误：通常由于并发控制等机制导致，如死锁等资源冲突。此类错误发生时，相关事务可能被系统自动中止（如回滚事务以解除死锁），随后可以由调度器安排重新执行或由用户手动重试。系统错误本质上是事务未能顺利完成，但整体数据不会因此损坏，数据库依然保持一致性。

系统崩溃故障

系统崩溃指的是数据库所在的主机在运行期间由于不可预见的问题（如硬件故障、数据库软件的缺陷或操作系统崩溃）导致进程异常终止。崩溃发生时，所有内存中未持久化的数据全部丢失，但通常存储在非易失性设备（如磁盘）上的数据不会受到影响。

数据库系统普遍采用“fail-stop假设”：一旦检测到不可恢复的严重错误，系统会主动中止运行，以防止数据出现不可预期的损坏。

磁盘故障

磁盘故障指持久化存储介质发生物理损坏或不可逆的读写错误，导致部分或全部持久化数据失效。与系统崩溃不同，磁盘故障不会保留可靠的数据副本，是数据库系统面临的最严重风险之一。因此，业务连续性管理中必须依赖定期备份、RAID等冗余容错机制以及异地容灾方案，以最大限度降低关键数据永久丢失的概率。

一旦磁盘出现不可修复的损坏，未建立有效备份或多地冗余存储的系统将极有可能导致全部历史数据无法恢复，带来不可估量的业务与经济损失。

存储层级

数据库系统借助多层次存储结构，实现数据高效管理与持久性保障，这为数据库可靠性、性能与恢复能力提供强有力的支撑。

存储层级

存储介质的三层模型

数据库系统按照存储介质的特性，将存储系统分为三层：

易失性存储（Volatile Storage）：主要指主存（RAM），特点是访问速度极快，但断电后数据会全部丢失。数据库运行时的大量中间状态、缓存页等主要驻留在该层。其优点在于高性能，缺点是缺乏持久性。
非易失性存储（Non-Volatile Storage）：典型代表为磁盘（如HDD、SSD），即使断电也能保持数据不丢失，是数据库主要的数据持久化媒介。所有正式落盘的数据、日志文件等均存储于此，具备较好的可靠性和容量，但读写速度低于内存。
稳定存储（Stable Storage）：理论上要求数据“永不丢失”，数据库恢复机制假设可用该层来保证数据的绝对持久性。现实中，稳定存储通过软硬件冗余机制实现，如多副本、异地备份等，以极大概率消除单点故障导致的数据丢失。

稳定存储是数据库恢复系统的理论基础。尽管在实际工程中不存在绝对可靠的存储介质，但通过多副本冗余、备份容灾等机制，可以近似实现稳定存储的设计目标。

稳定存储实现机制

稳定存储的实现通常基于冗余存储，即将每一个关键数据块保存为多个一致的物理副本，分布于独立的硬件介质上。这样，即便某一副本所在设备发生故障，其他副本仍可保证数据完整性。

工程实践中，数据库系统广泛采用 RAID（Redundant Array of Independent Disks，独立磁盘冗余阵列）等存储技术。例如最简单的**磁盘镜像（RAID 1）**方案会将每一份数据同时写入至少两块物理磁盘，即便任意单块磁盘损坏也不会导致数据永久丢失。

这种冗余存储策略是数据库高可用、高可靠架构的基础，可大幅降低因硬件故障导致的数据丢失风险。

但是，简单的本地冗余还不够。如果整个数据中心都被火灾或洪水摧毁了怎么办？这就需要异地备份。许多企业级系统会将数据同时存储在地理位置相距很远的多个数据中心。当主数据中心发生灾难时，位于其他城市甚至其他国家的备份数据中心可以立即接管服务。

数据写入的安全协议

为了确保数据的完整性，稳定存储系统采用了一套严格的写入协议。这个过程就像是银行的双重验证系统——必须通过多重检查才能确认操作成功。当系统需要更新一个数据块时，它会按照以下步骤进行：

首先，将新数据写入第一个物理存储设备。这就像是在第一份合同上签字。然后，等待第一次写入完全成功后，再将相同的数据写入第二个物理存储设备。这就像是在第二份合同副本上签字。最后，只有当两次写入都成功完成后，系统才会宣布这次更新操作成功。

如果在写入过程中系统发生故障，可能会出现两个副本不一致的情况。恢复系统需要能够检测并修复这种不一致性，通常的做法是将第二个副本的内容复制到第一个副本，因为第二个副本代表了最新的完整写入操作。

数据在内存与磁盘间的旅程

理解数据在内存和磁盘之间的移动过程，对于掌握数据库恢复系统至关重要。让我们通过一个网上购物的例子来说明这个过程。假设你正在一个电商网站上购买一本书。当你点击“购买”按钮时，发生了什么？

Input操作：数据库系统需要检查库存数量。如果这本书的库存信息不在内存中，系统会从磁盘上读取相应的数据块到内存。这个过程叫做input操作——将磁盘上的物理块传输到内存中的缓冲区。

内存计算：系统在内存中进行计算：检查库存是否充足，减少库存数量，创建订单记录等。所有这些操作都在内存中进行，速度很快。

Output操作：当事务提交时，修改过的数据需要从内存写回磁盘。这个过程叫做output操作——将内存中的缓冲块传输到磁盘上的相应位置。

事务的私有工作空间

每个事务都有自己的私有工作空间，就像是每个厨师都有自己的案板一样。当事务T1需要修改数据项X时，它不会直接修改共享的数据，而是在自己的工作空间中创建一个副本x1。所有的修改都在这个私有副本上进行。这种设计有两个重要的好处。首先，它避免了不同事务之间的相互干扰——T1对x1的修改不会影响到T2对其私有副本x2的操作。其次，如果T1在执行过程中需要回滚，系统只需要简单地丢弃工作空间中的修改，而不会影响到数据库的实际状态。

read操作会将数据库中的数据项X的当前值复制到事务的私有变量xi中。如果包含X的数据块还不在内存中，系统会先执行input操作将其加载到内存。

write操作则将私有变量xi的值写入内存缓冲区中的数据项X。注意，这个操作只是更新了内存中的副本，并没有立即写入磁盘。

这种延迟写入的策略被称为非强制输出策略。它允许系统在合适的时候批量将多个修改写入磁盘，从而提高性能。但这也意味着，即使事务已经提交，其修改可能仍然只存在于内存中。这就是为什么我们需要write-ahead logging（预写日志）策略的原因——确保在数据写入磁盘之前，相应的日志记录已经安全地保存到稳定存储中。

恢复与原子性

在数据库系统中，原子性是通过日志（Log）机制来保障的。日志是一种严格、顺序记录数据库操作历史的机制，用于追踪数据库中所有对数据状态产生影响的操作。系统会为每个事务生成详细的日志记录，涵盖事务的启动、对具体数据项的修改（包括修改前后的数据值）、以及事务的提交或回滚过程。

当发生故障时，日志成为数据库恢复和重建一致状态的核心依据。通过分析和重放日志，系统可以判断哪些事务已经完成，哪些事务需要回滚撤销，从而恢复到故障发生前的正确一致状态。

恢复与原子性

原子性的挑战

让我们回想之前提到的银行转账例子。假设小明要从储蓄账户向小红的账户转账500元。这个看似简单的操作实际上包含了两个步骤：从小明账户扣除500元，向小红账户增加500元。

在理想情况下，这两个步骤应该作为一个不可分割的整体来执行。要么两个步骤都成功完成（小明少了500元，小红多了500元），要么都不执行（两人账户都保持原状）。绝对不能出现只执行了一半的情况——比如小明的钱被扣了，但小红却没有收到。

但现实世界中的计算机系统并不完美。系统可能在任何时刻崩溃，网络可能突然中断，硬盘可能发生故障。如果在执行第一步之后、第二步之前系统崩溃了，我们就面临着数据不一致的危险。

日志记录

日志系统被视为数据库的“黑匣子”，对所有关键操作进行精确、顺序地记录。在数据项发生变更前，数据库管理系统（DBMS）首先将关于此次变更的完整信息写入日志，确保日志的持久性，然后才执行实际的数据更新操作。

这种“先记录，后执行”的策略被称为Write-Ahead Logging（WAL，预写日志）。它是数据库恢复系统最重要的原则之一，确保了即使在最严重的系统故障中，我们也不会丢失已经提交的事务的信息。

让我们看看日志记录都包含哪些信息。以刚才的转账操作为例：

当小明向小红转账500元时，系统会生成一系列日志记录。首先是事务开始记录，标记着这个转账操作的开始。然后是数据更新记录，详细记录了小明账户余额的变化——从1000元变为500元。接着是另一个数据更新记录，记录了小红账户余额从800元变为1300元的变化。最后是事务提交记录，确认整个转账操作成功完成。每条更新记录都包含四个关键信息：事务标识符（告诉我们这个操作属于哪个事务）、数据项标识符（告诉我们修改的是哪个数据）、旧值（修改前的数据值）、新值（修改后的数据值）。

这种详细的记录方式使得系统具备了强大的恢复能力。如果需要重做一个操作，系统可以使用新值来恢复数据的最新状态。如果需要撤销一个操作，系统可以使用旧值来恢复数据的原始状态。

事务提交

在数据库里，“提交”是一个神圣的时刻。一旦事务被提交，就意味着它的所有修改都将永久保存，无论之后发生什么样的系统故障，这些修改都不会丢失。但是，什么时候一个事务才算真正提交了呢？答案可能会让你感到意外：不是在所有数据都写入磁盘的时候，而是在提交日志记录被安全地写入稳定存储的时候。

这听起来有些反直觉，但这样做有充分的理由。假设我们要求所有的数据修改都必须在事务提交时立即写入磁盘，那么每次提交都需要进行多次磁盘写入操作，这会严重影响系统性能。而且，由于磁盘写入是相对较慢的操作，用户需要等待更长的时间才能得到事务完成的确认。相反，通过将提交的定义基于日志记录，我们可以获得更好的性能和灵活性。只要提交日志记录安全地存储在稳定存储中，我们就有信心在任何时候重建出正确的数据状态，即使当前数据库中的某些数据还没有来得及写入磁盘。

|
# 事务提交的时间线
T1: 开始转账操作                    [日志: <T1 start>]
T2: 修改小明账户                    [日志: <T1, 小明账户, 1000, 500>]
T3: 修改小红账户                    [日志: <T1, 小红账户, 800, 1300>]
T4: 提交日志记录写入稳定存储          [日志: <T1 commit>] ← 事务正式提交
T5:

使用日志进行重做和撤销

当数据库系统从故障恢复时，会依据日志进行恢复，以确保系统保持一致性和原子性。恢复过程主要包括两个核心操作：重做（redo）已提交事务的所有修改，以及撤销（undo）所有未提交事务的影响。

重做操作

在重做阶段，系统会顺序扫描日志，以识别那些已经提交但部分或全部修改尚未落盘的事务，并根据日志中的新值将这些修改重新应用到数据库中。此举的本质是保证所有已提交事务的效果最终反映到数据库的持久状态。例如，当事务提交后系统崩溃，即使相应数据尚未写入磁盘，恢复时也会根据日志中的新值重新覆盖数据项，从而实现“提交即永久”的承诺。

撤销操作

撤销阶段关注在系统崩溃前尚未完成（未提交）的事务。系统会逆序扫描相关日志，将这些事务的所有修改根据日志中的旧值按逆操作恢复，确保数据库状态回到这些事务执行前的原状。撤销操作需保证原子性，并确保即便在撤销过程中再次故障，系统依然能正确继续撤销剩余操作。通常，撤销遵循“后做先撤”的顺序（即按照操作的相反顺序逐步恢复），完整抹去未提交事务对数据库造成的所有影响。

撤销操作本身也会产生日志记录。这些被称为“补偿日志记录”的特殊记录确保了即使在撤销过程中发生故障，系统也能正确地完成恢复过程。

检查点

尽管日志记录为数据库故障恢复提供了坚实的基础，但如果每次系统故障后都需要从头遍历全部日志，特别是在系统持续运行时间较长、日志量巨大的情况下，恢复过程将变得极为低效。为提升恢复效率，数据库系统引入了“检查点”机制。检查点相当于定期对数据库当前状态以及日志进展进行一次系统化快照，从而使之后的恢复操作无需回溯到最初，只需从最近一次检查点开始。

在执行检查点操作时，系统通常需完成以下三项关键工作：

将内存中尚未持久化的所有日志记录全部刷新到稳定存储（如磁盘或专用日志设备），确保日志的持久性；
将所有缓存在内存中、被修改过的数据页（脏页）同步写回数据库磁盘文件，使数据与日志一致；
在日志中写入一条检查点标记，详细记录当前所有活跃事务的ID及其相关信息，便于故障恢复过程识别事务状态。

有了检查点，恢复过程就可以大大简化。系统只需要从最近的检查点开始分析日志，而不需要检查整个系统历史。对于在检查点之前就已经完成的事务，由于它们的所有修改都已经安全地写入了磁盘，所以不需要进行任何重做操作。通过日志记录、事务提交机制和检查点系统的协同工作，数据库恢复系统为我们的数据提供了全方位的保护。无论是小规模的事务失败还是大规模的系统崩溃，这套机制都能确保数据的完整性和一致性得到维护。

恢复算法

当数据库系统遭遇故障重启时，恢复算法会根据日志，高度自动化、严谨高效地将数据库恢复到一致且正确的状态。该过程遵循完整的事务原则，同时保证原子性、一致性、隔离性和持久性（ACID），防止因故障导致的数据损坏或丢失。

恢复算法

事务回滚

事务回滚（Transaction Rollback）是数据库管理系统在发现事务未能完整提交或被明确取消时执行的一项关键操作。其目标是撤销该事务对数据库所做的全部修改，确保数据库回退到执行该事务之前的状态，从而维护数据的一致性。

具体流程如下：系统自日志末尾起逆序扫描，定位需要回滚的事务（如T1）的全部更新日志记录，并按与操作执行时相反的顺序逐条撤销。这一过程中，系统依据每条日志中的旧值（before image）恢复受影响数据项，直至该事务所有变更全部还原。

在回滚过程中，系统还会写入补偿日志记录（CLR, Compensation Log Record），保证撤销过程的持久性与可重入性。即使回滚尚未完成再次发生故障，补偿日志也可确保系统在后续恢复时继续完成剩余撤销操作，实现强健的数据保护机制。

两阶段重建法

当数据库系统因故障重启时，需依赖严密的恢复算法以保障数据一致性和持久性。主流数据库恢复过程采用“两阶段恢复法”（Two-Phase Recovery），以结构化方式重建数据库一致状态。

第一阶段：重做阶段（Redo Phase）

重做阶段的核心目标是确保所有承诺（已提交）事务的持久化结果得以反映至数据库。系统首先定位最近生成的检查点，从该检查点开始顺序扫描后续日志记录，针对每一项操作进行重放。需要注意的是，无论事务最终状态如何（包括已被撤销的事务），所有影响数据页的更新操作在此阶段均会被重做。这一策略保证在潜在多次故障的情形下，所有已持久化的操作均能精确还原其效果。

在该阶段，系统维护一个“待撤销事务列表”，初始时该列表包括检查点时刻仍未完成的所有活跃事务。随着日志向前扫描，若检测到新的事务启动，则将其加入列表；若遇到事务的提交（commit）或中止（abort）日志，则将该事务从待撤销列表中移除。

|
# 重做阶段的处理逻辑示例
检查点记录: [T1, T2] -> 待撤销列表 = [T1, T2]
<T3 start>        -> 待撤销列表 = [T1, T2, T3]
<T1 commit>       -> 待撤销列表 = [T2, T3]
<T2, X, 100, 200> -> 重做此操作，设置X=200
<T3, Y, 50, 75>   -> 重做此操作，设置Y=75

第二阶段：撤销阶段（Undo Phase）

撤销阶段的目标是将所有未完成（未提交）事务对数据库产生的影响完全消除，确保系统恢复到一致状态。具体而言，系统自日志末尾逆序扫描，对“待撤销事务列表”中的每个事务执行撤销操作。

由于不同事务的操作可能发生交叉，必须严格按照反操作的顺序进行，保证撤销过程中不会引入中间不一致状态。每处理一条需撤销的日志记录，系统根据日志中的before image将受影响数据项恢复至原值，并同时写入补偿日志记录（Compensation Log Record, CLR），确保撤销操作自身具备持久性和可重入性。

当某个事务所有相关操作均已撤销完成后，系统写入该事务的Abort（中止）日志记录，并将其从待撤销列表移除。待撤销事务列表为空时，整个恢复过程正式结束。

并发控制与恢复的协同机制

在多用户环境下，数据库系统的恢复过程必须与并发控制协议密切协同，以维持数据一致性与系统可恢复性。该协同通常依赖于“严格两阶段锁协议（Strict Two-Phase Locking, Strict 2PL）”，即事务在持有更新数据项的排他锁期间，直至其提交（commit）或中止（abort）后方可释放锁资源。

具体而言，事务在对数据项进行修改时需先获得排他锁，其他事务只有在该锁被释放后才可对同一数据项进行操作。这种机制防止了未提交或已中止的事务所做的更改被其他事务可见，从而消除了读未提交（Dirty Read）等一致性风险，为恢复过程提供了确定的依赖关系基础。

若系统允许多个事务并发写同一数据项，则在崩溃恢复过程中可能引发复杂的依赖冲突。例如，事务 T1 先修改数据项 X，随后事务 T2 再次修改 X。在撤销 T1 时，不能简单依赖 T1 的 Before-Image 恢复 X 的旧值，否则会导致 T2 的合法更新也被错误覆盖，破坏事务隔离性。

尽管严格两阶段锁定协议可能对系统并发性产生一定影响，但其极大地降低了恢复算法的复杂性，确保了数据库在崩溃恢复后的正确性和一致性，是商业数据库管理系统广泛采用的核心机制之一。

检查点的优化策略

尽管传统的检查点机制能够有效保障数据库的恢复一致性，但其主要劣势在于检查点期间要求暂停所有事务处理，导致系统可用性显著下降。类似于全员暂停业务以进行一次彻底的系统快照，该方案在实际高并发场景下明显不够灵活和高效。针对这一局限性，现代数据库系统引入了“模糊检查点（Fuzzy Checkpoint）”机制。该机制支持在不阻断事务执行的前提下并行推进检查点的持久化过程，从而大幅提升事务处理的连续性和系统吞吐能力。

在模糊检查点流程中，系统首先记录当前的检查点元数据，并捕获此刻内存中所有“脏页”（即被修改但尚未落盘的数据页）的集合。随后，后台线程异步逐步将这些脏页刷新至磁盘。即便此期间系统发生崩溃，恢复过程亦可通过重做日志确保检查点进度的可追溯与一致性。

模糊检查点的核心在于对脏页集合的精确管理。只有检查点启动时登记的所有脏页全部安全写入磁盘后，该次检查点才被标记为完成，进而为后续故障恢复提供严格的恢复边界。

通过引入模糊检查点机制，数据库系统能够在严格保障数据一致性与持久性的前提下，显著降低对在线事务处理的阻塞，提升整体系统的可用性和吞吐量。该机制使得检查点操作与正常事务执行能够高度并发，实现了数据持久化与业务连续性的高效协同。

现代恢复算法具备自动化应对复杂故障场景的能力，无论是单事务级的回滚，还是系统层面的崩溃恢复，均可在保证原子性和一致性的要求下准确恢复数据状态。相关机制为事务的持久化、并发控制及故障恢复提供了理论和工程上的坚实基础。

缓冲区管理

缓冲区管理（Buffer Management）是数据库系统实现高效 I/O 和数据一致性的核心模块。其主要目标是在有限的内存资源下，实现内存数据页与磁盘数据页之间的动态调度与高效交换，从而显著提升数据访问性能，并为事务的原子性与持久性提供基础保障。

缓冲区管理

日志缓冲区管理

根据 WAL（Write-Ahead Logging，先写日志）机制，数据库每次数据操作均需先生成并记录相应的日志条目。若针对每条日志立即写入磁盘，则会带来极大的性能开销。为此，数据库系统采用日志缓冲区（Log Buffer）的批量写入策略：将多条日志先暂存于内存，利用顺序 I/O 的优势，周期性或满足一定条件（如缓冲区溢出、事务提交等）后统一写入磁盘，实现 I/O 合并与吞吐能力提升。

这种机制不仅减少了磁盘写操作次数，提高了系统性能，也为实现日志持久性与恢复保证奠定基础。在具体实现中，日志缓冲区通常为一块环形缓冲，支持并发写入与强制输出机制。事务提交或涉及数据页刷盘时，系统会根据 WAL 要求主动将缓冲区内相关的日志记录输出到稳定存储介质，确保后续的数据恢复与一致性需求可以满足。

然而，日志缓冲区的引入也带来了新的系统可靠性挑战。由于日志记录在缓冲区内可能会滞留一段时间而未即时持久化到磁盘，必须通过严格的策略来保障数据安全，这些策略被称为“预写式日志（Write-Ahead Logging, WAL）”规则。

WAL规则一：在事务提交之前，必须确保该事务生成的所有日志记录已经被可靠地写入稳定介质（如磁盘）。这一要求确保了任意已提交事务均可在系统崩溃恢复后被完整重做，避免数据丢失。
WAL规则二：在将某个数据页刷写至磁盘之前，所有与该页相关的日志记录必须已经首先被写入稳定存储。这样，系统在发生故障后能够依赖日志还原或撤销该数据页上的操作，保障数据一致性。

当实际运行中需要为事务提交或数据刷写等操作强制输出日志时（以满足WAL规则），系统可以选择将整个日志缓冲区的内容立即写入磁盘，即便缓冲区尚未填满。该过程称为日志强制输出（log force）。虽然会带来额外的I/O开销，但这是确保数据库持久性与可靠性的必要措施。

数据库缓冲区

数据库缓冲区管理的策略设计对数据库系统的性能、持久性及可靠性具有决定性影响，主要体现在对数据页写入时机和范围的控制。通常涉及下述两组核心策略分类：

Force vs. No-Force 策略：性能与持久性的权衡

Force（强制）策略要求每当事务提交时，事务所修改的所有数据页必须立即同步写入磁盘，确保数据的更新在提交时刻即可被永久保存。该策略实现简单，能够最小化崩溃恢复需求，但会带来显著的 I/O 性能瓶颈，尤其在高并发和高更新负载场景下制约系统吞吐能力。

No-Force（非强制）策略允许被事务修改的数据页在提交后暂时停留于内存缓冲区，不必立即刷写至磁盘。这样能够有效聚合写操作，提高磁盘写入效率，并大幅提升系统整体性能和吞吐率。但该策略下，崩溃恢复时需要依赖日志重做未刷盘的已提交数据，从而对日志管理和恢复机制提出了更高要求。现代主流数据库系统普遍采用 No-Force 策略以实现高性能。

Steal vs. No-Steal 策略：一致性与存储管理的抉择

No-Steal（禁用）策略禁止将未提交事务修改的数据页提前写入磁盘，即脏页仅允许在事务完成或回滚后被持久化，以防崩溃后出现未提交事务对数据库的污染。虽然简化了恢复过程（无需撤销操作），但极易导致缓冲区“脏页阻塞”问题，不利于长事务及高并发写操作场景。

Steal（允许）策略允许将包含未提交事务修改的数据页在事务执行期间就写回磁盘。为避免系统崩溃导致不一致，需严格遵循 WAL（Write-Ahead Logging）原则：即先将相关日志记录安全持久化，后允许脏页写盘。该策略提升了缓冲区利用率和整体 I/O 效率，但对日志的完整性和崩溃恢复的撤销（UNDO）机制提出了严格要求。

专业数据库系统往往采用 No-Force + Steal 的组合方式，通过 WAL 机制匹配高性能、高可用与持久性需求的平衡。

策略组合	特点描述
强制 + 禁用	最安全但性能最差，很少使用
强制 + 允许	安全性好，但性能仍然不佳
非强制 + 禁用	对大事务不友好，可能导致内存不足
非强制 + 允许	现代系统的标准选择，性能最好

大多数现代数据库系统采用“非强制+允许”的组合策略。这种组合提供了最佳的性能表现，同时通过WAL规则保证了数据的安全性。

操作系统交互中的缓冲区管理技术挑战

在数据库系统的缓冲区管理领域，操作系统的参与引入了复杂的技术挑战。数据库系统需在自身缓冲区管理机制与操作系统内存管理策略之间进行有效协调，以确保数据持久性和系统性能的最优平衡。

当前，数据库系统主要采用以下两种操作系统交互模式：

数据库自主管理缓冲区

在自主管理模式下，数据库管理系统（DBMS）直接分配并维护一块专用的物理内存区域，用于实现自身的数据页缓冲。这一模式下，数据库系统拥有对缓冲区的完整掌控，能够严格执行如WAL（Write-Ahead Logging）等持久性和一致性协议，对缓冲区页面的替换、刷写策略、日志持久化顺序等关键细节实现精细化管理。

优势在于，数据库能够根据其恢复、事务与并发控制机制的要求，精准把控数据一致性与崩溃恢复时序。缺点则表现为资源利用率偏低——数据库缓冲区在物理内存中独立划分，无法灵活共享操作系统剩余的内存资源，可能导致瞬时内存需求高峰时资源利用不足。

依赖操作系统虚拟内存机制

在此模式下，数据库系统充分利用操作系统提供的虚拟内存/分页机制，将数据缓冲区映射/分配在系统虚拟内存空间之中。理论上，若操作系统支持与DBMS接口的回调机制（如通知特定页面刷写），数据库可精细把控IO时机并落实WAL等策略。

但实际环境中，主流操作系统往往抽象并屏蔽了虚拟内存换出的决策，数据库系统难以直接干预页面置换或写回磁盘的过程。这种情况下，操作系统可能在未遵循数据库日志顺序和一致性保障要求的情况下，将缓冲区页异步写入交换空间（swap）或磁盘，进而潜在威胁WAL语义的实现与数据库的可靠性。

高性能数据库通常优先采用自主管理缓冲区方式，以严密控制持久化时序和崩溃恢复机制，从而保障数据一致性和系统可恢复性。

持续优化的缓冲区策略

为提升系统总体性能，现代数据库管理系统（DBMS）通常设计有专门的后台进程（如后台刷盘线程），持续异步地将脏页（即已被事务修改但尚未刷写至外部存储的数据页）周期性地写回磁盘。这一机制可视为对缓冲区内容主动而有序的清理与整理，旨在降低关键时刻的数据一致性维护负担并提升IO吞吐效率。

持续脏页刷盘机制具有多重工程与架构层面的优势。首先，它显著减轻了检查点（checkpoint）操作时的写放大压力——由于大部分脏页已提前被写入持久介质，检查点期间仅需处理少量残余脏页，极大缩短了系统暂停时间。其次，定期清理脏页有助于维持缓冲池中“干净”页面的比例，提升页面替换（eviction）过程的效率，减少因空间回收需要引发的同步刷盘行为，从而降低事务响应延迟。

这一体系化的后台缓冲区管理策略，使数据库系统能够在严格保障持久性与崩溃恢复语义的同时，实现事务处理的高并发与高可用。该策略的实现需要结合WAL（Write-Ahead Logging）、检查点优化及高效的页面回收算法，要求系统能够精细管控刷新时机与写序，最大化磁盘与内存资源的利用率。

ARIES算法

ARIES（Algorithm for Recovery and Isolation Exploiting Semantics）算法是数据库恢复领域最具影响力且被广泛采纳的恢复方案之一，代表了日志恢复机制的顶尖设计。相较于传统的恢复方法，ARIES在日志管理、恢复粒度与恢复性能等方面做出了系统性的优化与扩展，极大提升了数据库系统在应对异常故障时的数据一致性保障和恢复效率。

ARIES算法

日志序列号

ARIES算法的核心机制之一是引入了日志序列号（LSN, Log Sequence Number）这一标识。LSN为每条日志记录分配全局唯一的、单调递增的编号，用于严密描述数据库操作的时间序关系。LSN不仅提升了日志寻址效率，更为后续恢复流程中的重做与撤销操作提供了明确依据。

在实际实现中，数据库系统为每个数据页维护一个PageLSN字段，记录最后应用到该页面的日志记录对应的LSN。恢复时，系统通过比对日志记录的LSN与页面的PageLSN即可精准判断：若日志LSN大于PageLSN，说明该操作尚未作用于页面，需进行重做；反之则跳过，从而实现高效、精准的增量恢复。

LSN不仅仅是一个简单的编号，它通常包含文件号和文件内偏移量的信息，这样系统可以直接定位到日志记录在磁盘上的物理位置，大大提高了日志访问的效率。

生理重做操作

传统的恢复算法使用物理日志记录，即记录数据页面中每个字节的变化。这就像是在修复一幅画时，详细记录每个颜料分子的位置变化。虽然这种方法很准确，但也很浪费空间。 ARIES算法引入了“生理重做操作”的概念。这种操作在页面级别是物理的（明确指定了操作的页面），但在页面内部是逻辑的（记录的是操作的语义而不是字节级的变化）。

让我们通过一个例子来理解这个概念。假设我们要在一个数据页面中删除一条记录。传统的物理日志需要记录删除后所有其他记录移动的详细字节变化，这可能需要很大的存储空间。而生理重做操作只需要记录“删除页面P中的记录R”这样的逻辑操作，系统在重做时会自动处理记录移动的细节。这种方法的优势是显而易见的：日志记录更加紧凑，同时保持了操作的精确性。

脏页面表

ARIES算法引入了“脏页面表”（Dirty Page Table, DPT）这一关键的数据结构，用于精确维护缓冲区中所有已被修改但尚未持久化至磁盘的数据页的信息。对于每一个脏页面，DPT记录了其当前的PageLSN（反映数据页最新被应用日志的序号）与RecLSN（该页面自变脏以来的最小LSN，即该页面首次变脏时对应的日志序号）。

在恢复流程中，脏页面表发挥着决定性作用。重做（Redo）阶段仅需针对脏页面表中的数据页进行操作，因为未列入DPT的页已经被安全地刷新至磁盘，保证一致性。

|
# 脏页面表示例
页面号  | PageLSN | RecLSN | 说明
--------|---------|--------|------------------
1001    | 150     | 120    | 从LSN 120开始变脏
1002    | 200     | 180    | 从LSN 180开始变脏
1003    | 175     | 160    | 从LSN 160开始变脏

ARIES算法将恢复过程精心设计为三个阶段，每个阶段都有明确的目标和策略。

分析阶段：侦察兵的任务

分析阶段就像是派出侦察兵去了解战场情况。系统从最近的检查点开始向前扫描日志，收集恢复所需的关键信息：哪些事务需要撤销，从哪个位置开始重做，脏页面表的当前状态等。

这个阶段不会修改任何数据，只是收集信息和制定恢复计划。就像军事行动中的情报收集阶段，准确的信息是后续行动成功的基础。

重做阶段：历史的重演

重做阶段从分析阶段确定的起始LSN开始，向前扫描日志并重新执行所有操作。但与简单的重做不同，ARIES使用了更智能的策略。

对于每条日志记录，系统首先检查相应的页面是否在脏页面表中。如果不在，说明该页面的所有修改都已经写入磁盘，可以跳过这条记录。如果在脏页面表中，系统进一步检查页面的PageLSN是否小于日志记录的LSN。只有当PageLSN较小时，才需要重做这个操作。

这种精细的控制确保了每个操作只被执行一次，避免了重复操作可能带来的问题。

撤销阶段：错误的纠正

撤销阶段处理那些在崩溃时还没有完成的事务。与传统方法不同，ARIES使用了一种更高效的撤销策略。

系统为每个需要撤销的事务维护一个指针，指向该事务的最后一条日志记录。然后，系统选择所有指针中LSN最大的那个事务进行撤销。撤销一条记录后，该事务的指针会移动到前一条记录。这个过程继续进行，直到所有事务都被完全撤销。

远程备份系统

即便具备了先进的本地恢复与高可用架构，实际生产环境中依然无法规避极端灾难事件（如地震、火灾、洪水、恶意攻击等）对整个数据中心的毁灭性影响。一旦主数据库系统因灾难性事件完全丧失服务能力，远程备份系统则成为保障业务连续性和数据完整性的关键技术措施。

远程备份系统

远程备份系统的技术架构

远程备份系统（Remote Backup System）的核心在于跨地域部署——在物理隔离且距离较远的位置建立备份站点，实时同步主站点的数据库更新和日志变更。备份站点可在主站点失效时，迅速接管数据服务，确保数据不丢失、业务不中断。

在企业级环境中，这一架构不仅仅是容灾的需求，更是服务高可用和数据合规的必选方案。与总部-分部的运营模式类似，主站点（如总部）发生不可恢复故障时，分布在其他城市或国家的数据中心（备份站点）可以通过切换机制无缝接手核心业务，最大程度降低业务中断与数据丢失的风险。

远程备份系统的关键在于保持两个站点之间的数据同步。主站点会将所有的日志记录实时发送到备份站点，备份站点则根据这些日志记录维护数据库的副本。

故障检测

在远程备份系统架构中，主站点故障的精准检测是实现高可用切换的首要技术难点。由于网络中断、链路抖动等非业务性异常易导致“误判故障”，必须通过设计多层次、多维度的检测与确认机制以提高故障判定的可靠性，最大限度降低误切换风险。

当前主流远程备份系统普遍部署多路径心跳机制（如专用链路、公网多跳路径、甚至基于电话拨号等异构通信手段），以冗余方式持续验证主备数据链路和业务联通性。系统仅在全部独立通信通道均检测失联且持续超出设定阈值时间后，才认定主站点发生不可恢复故障，触发后续控制权转移流程。

为进一步提升业务安全性，部分高等级系统还引入人工终审环节——即在自动切换发生前，必须由运维/管理人员通过电话、短信或专属控制台进行人工确认，确保主站点确实进入不可用或不可恢复状态，防止“脑裂”等高风险情况发生。

控制权转移

主站点故障确认后，备份站点需在最短时间内无缝接管数据库服务，实现业务连续性保障。该过程涉及多个关键技术环节：

数据库状态恢复：备份站点根据此前实时同步的日志记录，将自身数据库实例恢复到与主站点“故障瞬间”一致的数据状态，确保数据完整性与事务一致性。
服务切换：备份站点激活数据库对外服务端口，开始接受客户端/应用层新的连接与事务请求。为保证平滑过渡，切换动作应对业务侧透明，用户感知的仅为短暂的服务延时。
后续同步与角色变更：待原主站点修复恢复后，需处理灾备期间产生的数据增量差异。行业通行的两种方案包括：
- 继续保持备份站点为主，实现“主备角色倒换”，原主站点降为新备份，通过日志回放同步缺口数据，直至数据完全一致；
- 执行再切换（failback），即将主控权切回原主站点。此步骤需对两站点的数据状态进行精确比对与合并，保障所有事务一致性，对切换窗口与系统性能有更高要求。

上述流程强调全程的自动化、精细化运维管控，确保主备切换的高可靠性与业务零丢失目标。

提交的持久性层次

远程备份系统还引入了一个之前我们遇到过的有趣问题：什么时候一个事务才算真正提交了？这个问题有不同的答案，每种答案都代表了不同的安全性和性能权衡。

单点安全模式是最快的选择。事务一旦在主站点提交，就立即返回成功结果给用户，不需要等待备份站点的确认。这种模式的风险是，如果主站点在日志记录传输到备份站点之前就发生故障，那么这些已提交的事务可能会丢失。

双点安全模式要求事务在主站点和备份站点都记录了提交日志后才能返回成功结果。这种模式提供了最高的数据安全性，但代价是较长的响应时间，而且如果任何一个站点出现问题，整个系统都无法处理事务。

条件双点安全模式是一个折中方案。在正常情况下，它按照双点安全模式运行，但如果备份站点不可用，它会自动降级为单点安全模式，确保系统的可用性。

选择哪种安全模式通常取决于应用的具体需求。金融系统可能更倾向于双点安全模式，而一些实时性要求很高的应用可能会选择条件双点安全模式。

热备份配置

为了进一步减少服务中断时间，一些高端的远程备份系统采用了“热备份”配置。在这种配置下，备份站点会持续应用从主站点接收到的日志记录，保持数据库始终处于最新状态。当主站点发生故障时，备份站点只需要完成当前正在进行的恢复操作，然后立即开始提供服务。这种配置可以将服务中断时间减少到几秒钟甚至更短。

热备份配置就像是一个随时准备接班的代理总经理，他对公司的所有业务都了如指掌，一旦总经理出现问题，他可以立即接管所有工作，确保公司运营不受影响。

实战练习

习题1：银行转账事务的原子性保证

假设有一个银行账户管理系统，包含以下表结构：

accounts表（账户表）：

account_id: INTEGER（账户ID）
account_name: VARCHAR(50)（账户名称）
balance: DECIMAL(10,2)（账户余额）
last_updated: TIMESTAMP（最后更新时间）

transactions表（交易记录表）：

transaction_id: INTEGER（交易ID）
from_account_id: INTEGER（转出账户ID）
to_account_id: INTEGER（转入账户ID）
amount: DECIMAL(10,2)（转账金额）
transaction_time: TIMESTAMP（交易时间）
status: VARCHAR(20)（交易状态：'pending', 'completed', 'failed'）

请编写SQL语句完成从账户A（ID=1）向账户B（ID=2）转账1000元的操作，要求使用事务确保原子性。

|
-- 开始事务
BEGIN TRANSACTION;
 
-- 检查账户A的余额是否足够
SELECT balance FROM accounts WHERE account_id = 1;
 
-- 从账户A扣除1000元
UPDATE accounts SET balance = balance - 1000, last_updated = CURRENT_TIMESTAMP WHERE account_id = 1;
 
-- 向账户B增加1000元
UPDATE accounts SET balance = balance

习题2：日志记录的恢复操作

基于习题1的表结构，假设系统在转账过程中发生崩溃，数据库需要根据日志进行恢复。已知崩溃前的最后日志记录如下：

日志表结构：

log_id: INTEGER（日志ID）
transaction_id: INTEGER（事务ID）
operation: VARCHAR(50)（操作类型：'start', 'update', 'commit', 'abort'）
table_name: VARCHAR(50)（表名）
record_id: INTEGER（记录ID）
old_value: TEXT（旧值）
new_value: TEXT（新值）
log_time: TIMESTAMP（日志时间）

崩溃前日志记录：

T1 start
T1 update accounts set balance=5000 where account_id=1 (old: 6000)
T1 update accounts set balance=7000 where account_id=2 (old: 6000)
系统崩溃，未提交

请编写SQL语句根据这些日志记录恢复数据库到一致状态。

|
-- 重做阶段：重做所有已记录的操作
-- 注意：由于事务未提交，我们需要撤销这些操作
 
-- 撤销T1事务的所有操作（使用旧值恢复）
UPDATE accounts SET balance = 6000, last_updated = CURRENT_TIMESTAMP WHERE account_id = 1;
UPDATE accounts SET balance = 6000, last_updated = CURRENT_TIMESTAMP WHERE account_id = 2;
 
-- 记录事务中止
INSERT INTO transactions (from_account_id, to_account_id, amount, transaction_time, status)
VALUES

习题3：并发控制与死锁检测

使用以下学生选课系统的表结构：

students表（学生表）：

student_id: INTEGER（学生ID）
student_name: VARCHAR(50)（学生姓名）
major: VARCHAR(50)（专业）
gpa: DECIMAL(3,2)（GPA成绩）

courses表（课程表）：

course_id: INTEGER（课程ID）
course_name: VARCHAR(100)（课程名称）
teacher: VARCHAR(50)（教师）
max_students: INTEGER（最大学生数）
current_students: INTEGER（当前学生数）

enrollments表（选课表）：

enrollment_id: INTEGER（选课ID）
student_id: INTEGER（学生ID）
course_id: INTEGER（课程ID）
enrollment_time: TIMESTAMP（选课时间）
grade: VARCHAR(2)（成绩）

两个学生同时选择同一门课程，可能会发生死锁。请编写SQL语句实现安全的选课操作，包括：

检查课程是否已满
检查学生是否已经选过该课程
插入选课记录并更新课程当前人数

|
-- 使用事务和行级锁来避免并发问题
BEGIN TRANSACTION;
 
-- 检查课程是否已满，并获取排他锁
SELECT current_students, max_students FROM courses WHERE course_id = 1 FOR UPDATE;
 
-- 检查学生是否已经选过该课程
SELECT COUNT(*) FROM enrollments WHERE student_id = 123 AND course_id = 1;
 
-- 如果课程未满且学生未选过，执行选课
INSERT INTO enrollments (student_id, course_id, enrollment_time)
VALUES

习题4：检查点与恢复优化

基于银行账户表，假设系统需要创建检查点来优化恢复过程。

checkpoints表（检查点表）：

checkpoint_id: INTEGER（检查点ID）
checkpoint_time: TIMESTAMP（检查点时间）
active_transactions: TEXT（活跃事务列表，JSON格式）
dirty_pages: TEXT（脏页面列表，JSON格式）

请编写SQL语句创建检查点，包括：

记录当前时间
获取活跃事务列表
记录内存中的脏页面信息
强制将所有日志写入磁盘

|
-- 创建检查点
BEGIN TRANSACTION;
 
-- 1. 记录检查点开始
INSERT INTO checkpoints (checkpoint_time, active_transactions, dirty_pages)
SELECT
    CURRENT_TIMESTAMP,
    -- 获取活跃事务（假设有一个active_transactions表）
    COALESCE((SELECT JSON_ARRAYAGG(transaction_id) FROM active_transactions), '[]'),
    -- 获取脏页面信息（假设有一个buffer_pages表标记脏页）
    COALESCE((SELECT JSON_ARRAYAGG(page_id) FROM buffer_pages WHERE is_dirty = true), '[]');
 
-- 2. 强制刷新所有脏页面到磁盘（在实际DBMS中，这会触发后台刷新）
-- 注意：SQL中无法直接控制缓冲区刷新，这里用注释说明

习题5：远程备份与数据同步

使用订单系统的表结构实现远程备份同步：

orders表（订单表）：

order_id: INTEGER（订单ID）
customer_id: INTEGER（客户ID）
order_date: TIMESTAMP（订单日期）
total_amount: DECIMAL(10,2)（订单总金额）
status: VARCHAR(20)（订单状态）

order_items表（订单明细表）：

item_id: INTEGER（明细ID）
order_id: INTEGER（订单ID）
product_id: INTEGER（产品ID）
quantity: INTEGER（数量）
unit_price: DECIMAL(8,2)（单价）

backup_log表（备份日志表）：

log_id: INTEGER（日志ID）
operation: VARCHAR(50)（操作类型）
table_name: VARCHAR(50)（表名）
record_id: INTEGER（记录ID）
data: TEXT（数据内容，JSON格式）
sync_time: TIMESTAMP（同步时间）
sync_status: VARCHAR(20)（同步状态）

请编写SQL语句实现订单数据的远程同步，包括记录操作日志和标记同步状态。

|
-- 订单创建事务
BEGIN TRANSACTION;
 
-- 创建订单
INSERT INTO orders (customer_id, order_date, total_amount, status)
VALUES (456, CURRENT_TIMESTAMP, 299.99, 'confirmed');
 
-- 获取刚创建的订单ID
SET @new_order_id = LAST_INSERT_ID();
 
-- 添加订单明细
INSERT INTO order_items (order_id, product_id, quantity, unit_price)
VALUES (@new_order_id, 101, 2, 149.99);