数据库管理系统：从共享数据到可靠服务

打开一次外卖订单、查询一笔账户流水、预约一场活动，界面背后都会发生相似的事情：系统先确认你是谁，再读取相关数据，检查规则，完成更新，最后把结果返回给你。真正困难的地方不在于“把一条记录写进磁盘”，而在于数据量很大、访问者很多、请求同时发生、设备也可能故障时，结果仍然要正确。

数据库管理系统（Database Management System，DBMS）就是处理这组问题的软件系统。它管理相互关联的数据，也提供定义结构、查询、更新、权限控制、并发协调和故障恢复等机制。我们先从它解决的问题出发，再逐层拆开语言、设计、引擎和应用架构。

数据库系统到底管理什么

数据库是一组与某个业务领域相关、彼此存在联系的数据。DBMS 则位于应用程序和持久化数据之间，把“保存与读取”扩展成一套可重复使用的管理能力。它的目标可以压缩成两个词：方便与高效。方便意味着用户和程序能用稳定的方式表达需求；高效意味着系统能在海量数据中找到代价较低的执行方法。

一套数据库系统通常面对三个共同条件：数据很有价值，规模可能远大于内存，而且会被多个用户或应用同时访问。订单总额算错、诊疗记录丢失、航班座位重复售出，损失都不只是几行数据。DBMS 因此还要保证安全性、完整性和故障后的可恢复性。

日常业务通过数据库共享和更新数据

数据库藏在日常操作背后

数据库系统的应用远不止“保存用户资料”。企业销售需要记录客户、商品与采购；制造系统要跟踪原料、生产、库存和供应链；金融系统保存账户、贷款、交易和实时行情；交通系统维护班次、预订与路线；通信系统记录通话、流量、计费和网络设备；在线平台还会保存连接关系、内容、浏览行为与推荐反馈。

这些场景的数据形态并不相同。交易记录通常有稳定的字段，内容平台的帖子却可能同时包含文字、图片、视频和链接。现代 DBMS 一方面利用重复结构提高处理效率，另一方面也要容纳结构较弱、格式变化频繁的数据。

数据库与人的交互方式也经历了变化。早期用户通过纸面表单和批量报表间接接触数据；终端和专用设备出现后，用户可以直接提交操作；Web 与移动应用普及后，普通用户每次点击都可能触发一次数据库访问。界面隐藏了查询语言和存储细节，但没有减少数据库承担的责任。

两类典型工作负载

第一类是在线事务处理（OLTP）。大量用户各自读取少量数据，并进行短小更新，例如付款、签到、改签和库存扣减。它关注低延迟、高并发和每笔操作的正确性。

第二类是数据分析。系统扫描较长时间范围或较大数据集合，寻找模式、生成统计结果或训练预测模型。例如商家根据历史销量决定补货量，平台根据浏览与点击数据调整内容排序。分析查询往往读得多、聚合多，资源消耗方式与短事务不同。

同一组织可能同时需要两种工作负载。设计系统时要先问清楚：当前请求是在处理一笔实时业务，还是在从大量历史记录中归纳规律？这个判断会影响表结构、索引、存储布局和资源隔离策略。

下列哪些条件会让一个数据管理任务更需要 DBMS 的统一能力？

统计过去一年全部订单并预测下月销量，更接近哪类工作负载？

为什么直接使用文件会越用越难

小系统常从几个文件开始：members.csv 保存成员，events.csv 保存活动，registrations.csv 保存报名。随后需求增加，开发者又写出导入程序、名单程序、退款程序和统计程序。每个程序都知道一些文件格式和业务规则。短期看很直接，长期却会形成“文件格式、业务逻辑、权限规则散落在程序里”的局面。

分散文件引发的数据管理问题链

七类问题会互相放大

数据冗余与不一致。 同一个手机号可能同时出现在成员文件、报名文件和通知名单中。修改其中一份而漏掉其他副本，系统便无法判断哪个值可信。冗余还会增加存储和同步成本。

临时访问困难。 如果运营人员临时要找出“参加过两场技术活动、最近一次签到成功的成员”，但系统没有现成程序，就只能手工拼接文件或等待开发新脚本。每出现一种新问题就写一段专用程序，响应速度会越来越慢。

数据隔离。 文件可能由不同团队创建，编码、字段名、分隔符和日期格式各不相同。跨文件查询先要处理格式差异，真正的业务计算反而成了后半段工作。

完整性难以统一。 “剩余名额不能为负数”“报名记录必须引用真实存在的活动”都属于一致性约束。如果每个应用自己检查，新程序很容易漏掉规则；涉及多个文件时，检查和更新更难保持同步。

原子性难以保证。 报名操作可能包含“减少名额”和“新增报名记录”。如果第一步完成后程序崩溃，名额减少了却没有报名记录。正确结果应当是两步都成功，或两步都不产生效果。

并发访问异常。 某场活动只剩 1 个名额，两位用户同时读取到“剩余 1”，都通过检查并写入报名结果，就会超额。单个程序顺序运行时看不出问题，并发执行才暴露出竞态条件。

安全控制粗放。 签到人员需要查看姓名和报名状态，却不应看到支付信息；财务人员需要处理退款，却不必访问全部个人资料。仅靠文件权限通常很难表达细粒度的行、列和操作类型限制。

文件并非不能保存数据。真正的问题是：当数据需要共享、临时查询、统一约束、并发更新和分级授权时，应用程序会被迫重复实现数据库已经集中提供的能力。

交互实验：诊断文件式系统的风险

切换场景，先判断它主要触发哪类问题，再显示解释。你会看到同一段业务操作为什么在单用户测试中正常，在真实并发和故障环境中却可能出错。

活动报名由‘减少剩余名额’和‘写入报名记录’组成。下列哪些结果违反了原子性？

只要每个单独程序在顺序测试中都正确，多用户并发执行时就一定不会产生错误。

用数据模型描述现实世界

数据模型是一组描述工具，用来表达数据本身、数据之间的关系、数据语义和一致性约束。它不是某一份具体数据，而是我们观察业务并组织数据的方法。选择模型时，关键问题是：业务中的对象结构是否稳定，关系如何表达，应用要执行哪些查询和更新。

关系模型、实体关系模型、半结构化模型和对象扩展模型

常见的四类模型

关系模型用表表示数据和联系。表的列有唯一名称，每行表示一条记录。以活动平台为例，member 表保存成员，event 表保存活动，registration 表用成员编号和活动编号连接二者。固定列让约束、连接和声明式查询更容易表达。

实体-关系模型（E-R）把现实对象抽象成实体，再描述实体之间的联系。成员和活动是实体，“报名”是联系。它适合概念设计阶段，因为业务人员能先讨论对象、属性、基数和约束，不必立刻决定文件与索引如何存放。

半结构化模型允许同类数据项拥有不同属性。JSON 和 XML 都能表达这种结构。例如不同活动可能有不同的报名附加项：线下活动需要到场城市，线上活动需要接收通知的设备类型。数据可以自带部分结构，而不要求每条记录完全同形。

对象扩展模型把复杂类型、对象标识、封装或方法等概念引入数据管理。现代关系系统常直接支持数组、JSON、空间类型或可在服务器内执行的过程，因此对象能力与关系模型并不总是彼此分离。

关系表表达数据与联系

下面是一个缩小后的逻辑例子：

`member_id`	`name`	`city`
101	林禾	成都
102	周宁	苏州

`event_id`	`title`	`capacity`
501	数据建模工作坊	40
502	城市摄影交流	30

registration(member_id, event_id, status) 不必复制成员姓名和活动标题，只保存引用与本次报名的状态。查询时再根据编号连接表。这样既减少重复，也让“报名必须指向真实成员和真实活动”的约束有了明确落点。

某类记录允许每个数据项拥有不同的属性集合，最直接对应哪种数据模型特征？

三层抽象如何隔离复杂性

DBMS 内部要处理数据页、文件、缓存、索引和磁盘访问，但普通用户只想看到“我报名了哪些活动”。抽象的作用就是让不同角色停留在适合自己的层次，而不必同时掌握全部实现细节。

用户视图、逻辑模式和物理存储的三级抽象

物理层描述数据实际怎样存储，包括记录编码、文件组织、数据页和索引。它关注读写次数、空间布局和缓存效率。

逻辑层描述数据库保存哪些数据、各数据之间有什么关系、必须满足哪些约束。成员、活动、报名三张表及其主键和引用关系都属于逻辑层。

视图层只呈现某个用户需要的局部内容。报名者看到活动标题和自己的状态，签到人员看到姓名与签到码，财务人员看到金额与退款状态。视图既简化操作，也能缩小敏感数据的暴露范围。

当应用只依赖逻辑结构，而不依赖表在磁盘上的具体排列时，DBA 可以增加索引、调整文件组织或迁移存储设备而不重写业务代码。这种性质叫物理数据独立性。它把性能优化与功能开发解耦开来。

模式是结构，实例是某一刻的状态

稳定的数据库模式与随时间变化的实例

模式（schema）是数据库的总体设计，例如 event 表有哪些列、列的类型是什么、主键是哪一列。实例（instance）是某个时刻实际存放的数据。今天活动 501 剩余 12 个名额，提交一次报名后变成 11，这是实例变化；只有新增 location_type 列或修改约束时，模式才发生变化。

不同抽象层对应不同模式。物理模式描述底层存储设计，逻辑模式描述完整逻辑结构，视图模式或子模式描述特定用户能看到的部分。应用程序受逻辑模式影响最大，因此逻辑结构变更通常比新增一个物理索引更需要谨慎评估。

交互实验：从用户需求切换抽象层

点击不同层级，观察同一个“查询我的报名”请求在每一层分别关心什么。最下面的滑块模拟物理布局变化，它不会改变上层看到的逻辑结果。

DBA 为常用查询增加索引，但应用查询语句和返回字段都不用修改，这主要体现了什么？

向报名表插入一条新记录，会产生新的数据库实例，但不一定改变数据库模式。

数据库语言把意图交给系统

DBMS 通常提供数据定义语言（DDL）和数据操作语言（DML）。它们在实际产品中常集成在 SQL 里，并不是两套完全分离的语法。DDL 决定“数据应当长什么样”，DML 表达“要读取或改变哪些数据”。

DDL、DML、SQL 与应用程序访问数据库的关系

DDL 定义结构、约束与权限

下面的定义不只创建一张表，还把部分业务规则交给数据库持续检查：

sql

CREATE TABLE event (
  event_id      INTEGER PRIMARY KEY,
  title         VARCHAR(80) NOT NULL,
  capacity      INTEGER NOT NULL CHECK (capacity >= 0),
  organizer_id  INTEGER NOT NULL,
  FOREIGN KEY (organizer_id) REFERENCES member(member_id)
);

capacity 的类型和 CHECK 构成域与取值约束；外键要求组织者编号必须出现在成员表中，体现参照完整性；主键保证活动编号唯一。若更新违反约束，数据库会拒绝操作，而不是等待某个业务程序偶然发现错误。

授权也属于结构管理的一部分。读、插入、更新和删除可以分别授予。签到账号可只有读取报名名单与更新签到状态的权限，不能删除活动；分析账号可读取经过脱敏的视图，却不能修改生产数据。

DDL 执行后产生的结构信息会进入数据字典。数据字典保存“关于数据的数据”，也就是元数据，例如表、列、类型、约束和索引定义。DBMS 在访问真实记录之前，会先利用这些信息理解结构与权限。

DML 负责检索和修改

DML 支持检索、插入、删除和修改。过程式 DML 要求用户同时指出“要什么”和“怎样取得”；声明式 DML 只描述“要什么”，由系统选择访问路径。SQL 查询通常采用声明式表达：

sql

SELECT e.title, r.status
FROM registration AS r
JOIN event AS e ON e.event_id = r.event_id
WHERE r.member_id = 101;

这段语句没有规定先扫描哪张表、是否使用索引、采用哪种连接算法。查询优化器会依据表规模、索引和统计信息比较候选计划。声明式语言因此降低了使用门槛，也把更大的责任交给查询处理器。

SQL 不是通用应用语言。读取键盘输入、渲染页面、调用网络服务和组织复杂业务流程，通常由 Java、Python、C# 等宿主语言完成。应用通过数据库驱动或标准接口把 DDL/DML 语句发送给服务器，再接收结果。关键边界是：业务程序组织流程，DBMS 管理共享数据及其一致性。

上面的 CREATE TABLE 定义中，哪些机制能直接阻止不合法数据进入表？

声明式 SQL 查询最关键的特点是什么？

从业务需求走到可实现的数据库

数据库设计的核心产物是模式，但设计不能从“先建几张表”开始。我们先收集用户真正需要保存的数据、要执行的操作和必须遵守的规则，再逐步把业务描述翻译成可实现结构。

数据库从需求到物理实现的设计路线

需求与概念设计

设计者要和领域人员确认对象、关系、数据生命周期和异常情况。活动平台不仅要保存成员与活动，还要回答：一个活动能否有多个组织者？取消后报名记录保留多久？候补转正是否占用名额？退款状态由谁更新？这些问题决定结构和约束。

概念设计用高层模型形成全局视图。E-R 模型可以把成员、活动和场次画成实体，把组织、报名和签到画成联系，并标出一对一、一对多或多对多。此时关注数据语义，不急着决定磁盘文件。

概念模式还要接受两类检查。第一类是数据需求是否完整、是否互相冲突；第二类是功能需求能否被支持。功能需求描述系统要执行的事务，例如创建活动、搜索场次、报名、取消和签到。一个结构即使看起来整洁，若无法高效支持核心操作，也不是合格设计。

逻辑设计与物理设计

逻辑设计把概念模式映射到目标 DBMS 的实现模型。关系系统中，需要确定表、列、主键、外键和约束。属性怎样分组可以借助 E-R 映射，也可以通过规范化方法减少不必要的重复和更新异常。

物理设计决定文件组织、分区、索引和其他存储结构。它必须依据真实工作负载：按成员编号查报名很频繁，可以建立相应索引；历史分析主要按月份聚合，可以考虑时间分区。物理设计不是一次性选择，还要根据数据增长和查询统计持续调整。

把高层概念模式映射成目标关系系统中的表、列、键和约束，属于数据库的 ____ 设计阶段。

数据库引擎怎样协同工作

数据库引擎可以从职责上分为存储管理、查询处理和事务管理三部分。它们不是互相孤立的盒子：一条查询由查询处理器生成计划，执行时通过存储管理器读取数据，并在事务管理器建立的正确性边界内运行。

查询处理器、存储管理器和事务管理器组成的数据库引擎

存储管理器连接逻辑操作与物理数据

存储管理器把 DML 操作翻译成底层读写。它内部通常包含权限与完整性管理器、文件管理器、缓冲区管理器，以及与事务有关的组件。

文件管理器分配磁盘空间，并维护数据在文件和数据页中的组织方式。缓冲区管理器把需要的数据页从持久化设备调入内存，决定哪些页面暂时保留、哪些可以淘汰。数据库远大于内存时，这一层直接决定大量查询是否会反复等待存储 I/O。

物理层还包含几类重要结构：数据文件保存记录；数据字典保存模式等元数据；索引提供从查找值到数据位置的快速路径；统计信息描述行数、值分布等特征，帮助优化器估计不同计划的成本。

查询处理器把 SQL 变成执行计划

DDL 解释器处理结构定义并更新数据字典。DML 编译器解析查询、检查名称和类型，再生成低层执行计划。同一条 SQL 往往有多种等价方案：先筛选活动再连接报名，或先定位某位成员的报名再连接活动；可以使用索引，也可以扫描全表。

查询优化器会依据估算成本选择计划。成本不仅是 CPU 时间，更常受数据页读取、内存占用、网络传输和并行度影响。查询执行引擎随后按计划调用存储管理器，并把结果逐步返回上层。

交互实验：逐步执行一条查询

点击“下一步”观察 SQL 如何从文字需求变成物理读写。切换数据规模，会看到优化器为什么可能选择不同计划。

下列哪些内容通常属于存储管理器直接管理的范围？

为什么同一条声明式 SQL 可能在不同数据规模下采用不同执行计划？

事务如何守住正确性边界

事务是完成一个逻辑功能的一组数据库操作。把相关操作包在同一事务里，应用可以把它们当成一个整体，而不用自己处理每种崩溃时刻和并发交错。

以账户间转入 300 元为例，事务至少包含“甲账户减 300”和“乙账户加 300”。原子性要求两步要么都完成，要么失败后都撤销；一致性要求事务从一个合法状态走到另一个合法状态，例如两账户总额不因转账改变；持久性要求提交成功后的新余额即使遇到系统重启也能保留。

并发执行还需要隔离。假设两笔操作同时修改同一余额，即使每笔操作单独看都正确，交错执行也可能出现丢失更新。并发控制管理器要协调这些操作，使结果等价于某种正确的顺序执行，并避免冲突破坏一致性。

恢复管理器处理故障。未完成事务留下的部分修改必须被撤销，已经确认提交的修改必须能够重做。事务管理器通常由并发控制与恢复两方面组成：前者处理同时发生的操作，后者处理故障前后的状态衔接。

数据库可以保证已定义事务的原子性与持久性，却不能替应用决定业务边界。如果开发者把“扣款”和“记账”拆成两个互不相关的事务，DBMS 无法凭空知道它们必须共同成功。

一笔转账提交成功后系统立即重启。重启后新余额仍应存在，这主要对应哪些事务要求？

只要两个事务各自在单独运行时都保持一致性，它们任意交错并发执行也一定保持一致性。

系统架构与应用架构是两件事

数据库系统自身可以运行在单机、多处理器共享内存服务器、集群或多个地理位置；使用数据库的应用又可以采用两层或三层结构。前者回答“数据库计算和数据分布在哪里”，后者回答“客户端、业务逻辑和数据库怎样分工”。

从集中式到并行与分布式

集中式系统把数据库引擎部署在一台服务器上。服务器可以有多个 CPU 并共享内存，通过并行执行提升吞吐。数据量和计算量继续增长时，数据库可运行在多台机器组成的集群上，把存储和查询任务分散到多个节点。

分布式数据库跨越多台甚至地理分离的机器。它不仅要决定数据放在哪个节点、查询怎样跨节点执行，还要解决跨站点事务的原子性、并发控制、网络分区和节点故障后的可用性。机器更多并不只是“性能乘法”，协调成本与故障类型也会增加。

两层与三层应用结构

两层架构中，客户端应用直接向数据库服务器发送查询。它结构简单，适合受控网络中的桌面工具，但连接信息和部分业务规则可能散落在多个客户端，升级与权限收敛较困难。

三层架构把应用服务器放在客户端与数据库之间。浏览器或移动端只调用应用接口，业务逻辑集中在应用服务器，应用服务器再访问数据库。这样可以统一身份验证、参数检查、事务边界、连接池和审计，也避免把数据库直接暴露给大量终端。现代 Web 应用通常更适合三层结构。

浏览器不直接连接数据库，而是先请求应用服务器，业务规则也集中在应用服务器中。这属于哪种应用架构？

数据库跨多个地理位置部署后，通常需要额外处理哪些问题？

不同用户看到的是不同入口

数据库系统要服务不同能力和目标的人。把所有人都放进同一个管理界面既不方便，也不安全。常见角色可以按交互方式区分。

预定义界面用户通过 Web、移动端、表单或固定报表完成任务，例如报名者提交信息、签到人员扫描凭证。他们不写查询，只操作应用提供的入口。

应用程序员编写调用数据库的业务程序和接口，负责把页面操作翻译成事务与查询，并处理输入、输出和网络通信。

专业用户直接使用查询语言或分析工具探索数据。例如运营分析人员组合筛选条件、聚合指标并验证假设。他们不一定编写完整应用，但需要理解数据语义。

数据库管理员（DBA）承担数据与访问程序的集中管理。主要职责包括定义和修改模式，选择存储结构与访问方法，创建合适索引，授予权限，安排异地备份，保证可用空间，并监控高成本任务是否拖慢整体服务。

DBA 的工作贯穿结构、安全、容量和性能。模式要随业务变化而演进，但不能破坏现有应用；权限要满足最小必要访问；备份必须能恢复，而不是只确认“文件已经复制”；性能监控要区分偶发慢查询和长期容量瓶颈。

分析人员直接编写查询探索用户留存，但不负责开发完整应用。他更接近哪类用户？

下列哪些通常属于 DBA 的职责？

数据库技术为什么不断演进

数据库的发展始终由两股力量推动：存储与计算硬件变化，以及应用对数据结构、并发规模和可用性的要求变化。理解这条脉络，可以看出很多新技术并非凭空出现，而是在解决前一阶段暴露出的限制。

从顺序处理到关系模型

早期自动数据处理依赖穿孔卡和磁带。磁带只能顺序读取，工资之类的批处理要让输入记录按相同顺序排列，再读取旧磁带并写出新磁带。数据量超过内存时，程序的处理顺序几乎被介质决定。

磁盘普及后，任意位置可以直接访问，层次模型和网状模型开始用树与连接结构组织磁盘数据。但程序员仍要了解较多底层导航路径。20 世纪 70 年代，关系模型和声明式查询把关注点上移到表与结果条件。经过查询优化和执行技术的改进，关系系统在 20 世纪 80 年代取得实用性能，并逐渐成为主流；并行、分布式和对象数据管理也在这一时期持续发展。

Web、半结构化数据与分析需求

20 世纪 90 年代，决策支持与大规模分析重新受到重视，并行数据库用于加速查询。Web 的快速普及又带来极高的在线事务率、全天候可用性和面向公众的访问入口，数据库从组织内部后台走向大规模网络服务。

进入 21 世纪后，XML、JSON 和空间数据变得常见，关系系统逐步加入对这些类型的支持。开源数据库广泛应用，自动配置与自动调优降低了日常维护负担。社交连接推动图数据库发展；分析工作负载推动列式存储与大规模并行计算框架发展。

海量、快速变化、结构不固定的数据也推动了 NoSQL 系统。它们通常优先追求扩展性、可用性和灵活结构，一些系统采用最终一致性：在没有新更新时，分散副本最终收敛。实践又表明，缺少强一致性和声明式查询会把复杂性转移给程序员，因此很多系统后来重新加入更严格的一致性和更高层查询能力。

云服务改变部署边界

云数据库把存储、计算和维护交给远程服务，应用通过网络接口使用数据能力。软件即服务进一步连应用运行也交给供应方。这样能减少自建基础设施与专门运维成本，同时带来新的责任边界：数据所有权如何界定，安全事件由谁响应，跨区域副本如何满足隐私与合规要求，都必须在架构阶段明确。

这条演进线没有产生一个适合所有场景的唯一答案。事务系统、分析系统、关系模型、半结构化存储和分布式服务仍会并存。选型时应回到数据结构、查询方式、一致性、延迟、可用性和运维能力，而不是只看技术名称的新旧。

磁盘相对磁带给早期数据处理带来的关键变化是什么？

推动 21 世纪数据库形态变化的因素包括哪些？

数据库管理系统 | 自在学