文件系统的内部机制 | 自在学

文件系统的内部机制

现代计算机系统通常需要管理大量文件，这些文件分布在各种随机访问存储设备上，包括硬盘驱动器、光盘和非易失性内存设备。为了高效地组织和管理这些存储资源，操作系统采用了分层的存储管理架构。

文件系统的组织遵循层次化结构：磁盘可以被划分为多个分区，每个分区通常包含一个文件系统实例。文件系统通过卷（volume）的概念进行管理，卷可以跨越单个分区或多个分区。这种层次结构使得操作系统能够灵活地管理存储空间，同时保持不同文件系统之间的隔离。

现代计算机系统通常同时运行多个文件系统实例。在一个典型的系统中，可能存在多种不同类型的文件系统，每种文件系统针对特定的应用场景进行优化。例如，Solaris系统可能同时运行数十个文件系统，包括通用文件系统、内存中的临时文件系统（如tmpfs），以及用于调试和系统管理的虚拟文件系统（如objfs、ctfs）。

文件系统的内部机制

文件系统挂载

文件系统在使用前必须经过挂载（mount）操作，将文件系统实例附加到系统目录树中的特定位置。挂载操作类似于将存储设备接入系统目录结构，使得文件系统内的文件和目录可以通过统一的路径空间进行访问。

挂载操作需要操作系统提供两个关键参数：设备名称和挂载点（mount point）。挂载点是文件系统在目录树中要附加的位置，通常是一个空目录。例如，在UNIX系统中，包含用户主目录的文件系统可能被挂载到/home目录下，用户可以通过/home/jane这样的路径访问特定用户的文件。

操作系统在挂载文件系统时会执行验证过程，确认设备包含有效的文件系统结构。验证过程包括让设备驱动程序读取目录结构并验证其格式。验证通过后，操作系统在内存中的目录结构中记录挂载信息，使文件系统对用户和应用程序可用。

不同操作系统的挂载方式

不同操作系统采用不同的文件系统挂载策略。macOS系统在首次检测到新磁盘时，会自动搜索磁盘上的文件系统。如果检测到有效的文件系统，系统会自动将其挂载到/Volumes目录下，并在用户界面中创建相应的文件夹图标。

Windows系统采用基于驱动器字母的卷标识机制。每个卷都有独立的目录结构，通过C:\、D:\等驱动器字母进行访问。这种设计提供了明确的卷边界，但限制了文件系统的灵活挂载。

UNIX系统允许将文件系统挂载到目录树中的任意位置。这种灵活性通过内存中的inode结构实现：挂载点对应的inode设置特殊标志，指向挂载表中的条目。挂载表条目包含指向文件系统超级块（superblock）的指针，超级块存储文件系统的元数据信息。

分区和挂载

磁盘的物理布局可以根据操作系统和卷管理软件的需求进行多种配置。一个磁盘可以被划分为多个分区，或者一个卷可以跨越多个磁盘上的多个分区，这种设计提供了存储管理的灵活性。

每个分区可以是原始分区（raw partition）或格式化分区（formatted partition）。原始分区不包含文件系统结构，用于不需要文件系统抽象的场景，例如UNIX系统的交换空间。交换空间使用专门的格式，不需要文件系统的复杂目录结构和元数据管理。

如果分区包含可引导的文件系统，它还需要引导信息（boot information）。引导信息采用独立于文件系统的格式，因为系统在加载文件系统代码之前就需要这些信息来定位和加载操作系统内核。引导加载器（boot loader）是一个简单的程序，负责在文件系统中查找内核文件，将其加载到内存并启动执行。

引导过程

系统启动时首先执行引导加载器。引导加载器理解文件系统格式，能够在文件系统中定位内核文件，将其加载到内存并开始执行。现代系统通常支持多重引导（multi-boot）功能，允许在同一系统上安装多个操作系统，用户可以在启动时选择要加载的操作系统。

引导加载器需要支持多种文件系统格式，以便从不同分区启动不同的操作系统。如果引导加载器不支持某个文件系统的格式，存储在该文件系统上的操作系统将无法启动。这种约束要求引导加载器实现多种文件系统驱动，或者采用统一的引导分区格式。

文件系统的层次结构

文件系统的组织遵循清晰的层次结构。从物理存储设备到逻辑文件抽象，每一层都承担特定的职责。这种分层设计使得系统能够灵活地管理不同类型的存储设备，同时为上层应用提供统一的文件访问接口。

该架构图展示了文件系统的层次组织：每个分区可以包含不同的文件系统类型，通过挂载操作，这些文件系统被整合到统一的目录树结构中，为用户提供透明的文件访问接口。

特殊用途的文件系统

除了通用文件系统外，操作系统还实现了多种特殊用途的文件系统，每种文件系统针对特定的系统需求进行优化。

tmpfs是一个基于内存的临时文件系统，其内容存储在系统RAM中。当系统重新启动或崩溃时，tmpfs中的内容会丢失，因为内存是易失性存储介质。这种特性使得tmpfs适合存储临时文件和缓存数据，可以显著提高访问速度，同时避免对持久存储设备的磨损。

objfs是一个虚拟文件系统，为调试器提供访问内核符号表的接口。它不存储实际文件，而是动态生成内核对象的信息，使得调试工具可以查询内核的内部状态。这种设计使得系统调试更加便捷，无需修改内核代码即可获取调试信息。

ctfs（Contract File System）维护进程启动和运行的合约（contract）信息。合约机制确保系统启动时需要的进程能够正常运行，如果关键进程失败，系统可以根据合约信息采取恢复措施。这种文件系统展示了操作系统如何通过文件系统接口暴露系统管理功能。

这些特殊文件系统展示了文件系统接口的通用性和灵活性，通过统一的文件系统抽象，操作系统可以将各种系统功能暴露给用户和应用程序。

文件共享机制

在多用户操作系统中，文件共享、文件命名和文件保护是核心设计问题。系统需要提供机制来协调多个用户对共享资源的访问，同时确保数据的安全性和完整性。

多用户操作系统采用访问控制机制来管理文件共享。不同的系统实现不同的访问控制策略：有些系统采用宽松的访问控制，允许广泛的文件共享；有些系统采用严格的访问控制，要求明确的权限授予。这些访问控制策略直接影响系统的安全性和可用性。

为了支持安全的文件共享，系统为每个文件和目录关联元数据信息，包括所有者和用户组标识。大多数现代操作系统采用基于所有者和用户组的访问控制模型。文件所有者拥有对文件的完全控制权，可以设置文件的访问权限。用户组成员可以共享文件，但权限受到所有者设置的限制。其他用户只能获得所有者明确授予的权限。

在UNIX系统中，文件权限通过三个权限组进行管理：所有者权限、组权限和其他用户权限。每个权限组可以独立设置读、写和执行权限。这种设计提供了细粒度的访问控制，同时保持了实现的简洁性。

文件的所有者ID和组ID作为文件元数据的一部分存储在文件系统中。当用户尝试访问文件时，系统首先检查用户的身份标识，然后与文件的权限信息进行匹配，决定是否允许访问。这种权限检查机制是操作系统文件保护的基础。

多用户环境中的挑战

在具有多个本地文件系统的系统中，例如跨越单个磁盘或多个连接磁盘的卷，用户ID检查和权限匹配在文件系统挂载后是直接的。系统可以直接比较用户ID和文件的所有者ID，进行权限判断。

然而，当外部存储设备在系统之间移动时，会出现用户ID不匹配的问题。不同系统可能为相同用户分配不同的用户ID，这会导致权限判断错误。系统需要提供机制来处理这种ID不匹配的情况：要么在设备移动时确保ID匹配，要么在检测到ID不匹配时重置文件所有权。

例如，假设用户在家用系统上的用户ID为1000，而在工作系统上的用户ID为2000。当移动存储设备从家用系统移动到工作系统时，工作系统可能根据用户ID 1000来判断访问权限，而不是基于实际的用户ID 2000。这可能导致权限判断错误，影响系统的安全性。

虚拟文件系统

随着现代操作系统需要同时支持多种文件系统类型，系统需要一个统一的接口来抽象不同文件系统的实现细节。虚拟文件系统（Virtual File System，VFS）正是为了解决这个问题而设计的抽象层。

VFS通过将文件系统通用操作与具体实现分离来简化系统设计。它定义了一个清晰的接口规范，使得完全不同的文件系统类型可以无缝集成到系统中。用户和应用程序可以在本地文件系统或网络文件系统中透明地访问文件，无需关心底层文件系统的具体实现。

虚拟文件系统

VFS的工作原理

VFS采用面向对象的设计方法来组织和模块化实现。这种方法允许非常不同的文件系统类型在同一架构下实现，包括本地文件系统和网络文件系统。

文件系统实现由三个主要层次组成：

第一层是文件系统接口层，基于标准的系统调用如open()、read()、write()和close()，以及文件描述符机制。这一层为应用程序提供统一的文件操作接口。

第二层是VFS层，它有两个重要功能：首先，将文件系统通用操作与其具体实现分离，定义清晰的VFS接口规范；其次，为整个网络提供唯一的文件表示机制。

VFS基于文件表示结构vnode（virtual node），它为网络范围内的文件提供唯一的数值标识符。UNIX的inode只在单个文件系统中是唯一的，而vnode在整个网络中都是唯一的，这使得VFS可以支持分布式文件系统。

Linux中的VFS对象

Linux VFS定义了四个主要对象类型：

inode对象：表示单个文件，包含文件的元数据信息
file对象：表示打开的文件实例，包含文件指针和访问模式
superblock对象：表示整个文件系统，包含文件系统的元数据
dentry对象：表示单个目录条目，用于路径名解析和缓存

对于这些对象类型中的每一个，VFS都定义了一组可以实现的操作。每个对象包含一个指向函数表的指针，该表列出了该对象类型特定实现的函数地址。例如，file对象的操作API包括：打开文件、关闭文件、读取数据、写入数据、内存映射等操作。

这种设计使得VFS软件层可以通过调用对象函数表中的适当函数来操作对象，而不需要预先知道正在处理哪种类型的文件系统。VFS可以调用本地文件系统特定的操作来处理本地请求，也可以根据文件系统类型调用NFS协议过程来处理远程请求。文件句柄从相关的vnode构造，并作为参数传递给这些过程。

虚拟文件系统的核心思想是将不同的文件系统类型统一到一个接口下，为用户和应用程序提供透明的文件访问体验。这种抽象层设计是操作系统架构中的经典模式，展示了如何通过接口抽象来简化复杂系统的设计。

远程文件系统

远程文件系统使得不同主机可以通过网络访问和共享文件资源。这种机制允许用户在一台主机上访问存储在另一台主机上的文件，就像访问本地文件一样。远程文件系统的发展经历了多个阶段，从早期的文件传输协议到现代的分布式文件系统。

早期的文件共享主要通过文件传输协议（FTP）实现，采用显式的文件传输模式。用户需要明确地将文件从一台主机传输到另一台主机，这种方式类似于显式的数据传输操作。后来，分布式文件系统（Distributed File System，DFS）的出现使得远程文件访问更加透明，本地主机可以像访问本地存储一样访问远程文件系统。

万维网（Web）的出现引入了基于HTTP的文件访问模式，本质上回到了显式传输的方式，但通过浏览器提供了更友好的用户界面。现代云计算环境进一步扩展了远程文件访问的能力，通过云存储服务提供随时随地的文件访问。

FTP支持两种访问模式：匿名访问和认证访问。匿名访问允许任何用户下载文件，无需提供身份凭证；认证访问要求用户提供用户名和密码。Web主要采用匿名访问模式，用户通过浏览器即可访问内容。

远程文件系统

客户端-服务器模型

远程文件系统采用客户端-服务器架构。存储文件的主机称为服务器（server），访问文件的主机称为客户端（client）。服务器预先配置哪些目录或卷可以被共享，客户端通过挂载操作将远程文件系统接入本地目录树。

客户端访问远程文件系统时需要向服务器提供身份认证信息。身份认证可以采用多种方式：基于IP地址或主机名的简单认证、基于用户ID的认证，或者基于加密密钥的安全认证。简单的认证方式容易受到IP地址伪造等攻击，而基于密钥的认证需要解决密钥分发和管理的复杂性。

UNIX系统的NFS（Network File System）默认采用基于网络信息和用户ID的认证方式。系统比较客户端的网络地址和用户ID与服务器上的配置，如果匹配则允许访问。这种方式简单但安全性有限。

当远程文件系统被挂载后，文件操作（如打开、读取、写入）通过网络协议发送到服务器。每次操作时，客户端携带用户ID信息，服务器检查权限后返回文件句柄（file handle）。文件句柄是访问远程文件的唯一标识符，客户端使用它进行后续的文件操作。操作完成后，客户端通知服务器关闭文件，完成整个访问过程。

分布式信息系统

分布式信息系统用于集中管理分散在不同主机上的信息，包括用户名、主机名、打印机配置等。最常见的分布式信息系统是DNS（Domain Name System），它将域名映射到IP地址，使得用户可以通过易记的域名访问网络资源。

早期的分布式信息系统包括NIS（Network Information Service）和NIS+，用于集中管理用户和主机信息。这些系统在安全性方面存在不足，后来被更安全的系统所取代。微软的活动目录（Active Directory）和LDAP（Lightweight Directory Access Protocol）成为现代企业环境中的主流解决方案。

活动目录基于LDAP协议，提供了统一的企业级目录服务。它使得整个组织的计算机和用户信息集中管理，支持统一的身份认证和访问控制。通过LDAP这样的分布式目录服务，用户理论上只需要登录一次，就可以访问组织内所有授权的计算机和资源，无需在每个系统上单独输入密码。这种单点登录（Single Sign-On，SSO）机制简化了用户体验，同时减轻了系统管理员的管理负担。

故障模式

本地文件系统可能由于多种原因而失败，包括驱动器故障、目录结构或元数据损坏、磁盘控制器故障、电缆故障和主机适配器故障。用户或系统管理员错误也可能导致文件丢失或整个目录或卷被删除。许多这些故障会导致主机崩溃，需要人为干预来修复损坏。

远程文件系统具有更多的故障模式。由于网络系统的复杂性和远程主机之间的交互，许多额外的问题可能干扰远程文件系统的正常操作。网络中可能出现连接中断，这种中断可能由硬件故障、配置错误或网络实现问题引起。虽然一些网络具有内置的冗余机制，包括主机之间的多条路径，但许多网络没有这种冗余。任何单一故障都可能中断分布式文件系统命令的流动。

该图表展示了不同类型的故障模式及其影响范围。网络故障和分布式系统故障通常比本地故障具有更广泛的影响，因为它们可能影响多个客户端。

在使用远程文件系统时，可能遇到网络中断、服务器故障或维护导致的突然不可用。此时，客户端可能正在访问远程文件，执行目录查找、数据读写等操作，这些操作会突然中断。系统通常不会像本地文件系统那样立即报告错误，而是选择暂停相关操作等待服务器恢复，或者中止所有操作。这些故障处理策略由远程文件系统协议规范定义。

以NFS为例，早期的NFS Version 3采用无状态（stateless）设计，服务器不记录哪些客户端挂载了哪些文件，也不跟踪哪些文件被打开。这种设计简化了系统实现，提高了故障恢复能力，因为服务器重启后无需恢复状态。然而，无状态设计也带来了安全隐患，例如请求伪造攻击。NFS Version 4改为有状态（stateful）设计，提高了安全性和功能完整性。

NFS：网络文件系统

网络文件系统（Network File System，NFS）是一种分布式文件系统协议，允许客户端主机通过网络访问远程服务器上的文件，就像访问本地文件一样。NFS是最广泛使用的网络文件系统之一，被各种UNIX系统和许多PC操作系统支持。

NFS的核心功能是通过网络将远程服务器上的文件系统挂载到本地目录树中。挂载后，用户在本地打开、编辑和保存文件时，所有操作都通过网络协议与远程服务器交互。NFS既是一套协议规范，也是软件实现，最初由Sun Microsystems开发，后来成为开放标准。

NFS有多个版本，目前最新的是Version 4，但Version 3仍然是最广泛部署的版本。以下讨论主要基于NFS Version 3的工作原理和实现细节，并结合Solaris系统的NFS实现进行说明，同时涉及通用规范和标准实现。

NFS：网络文件系统

NFS概述

NFS将一组互联的工作站视为具有独立文件系统的独立机器。其目标是在显式请求的情况下，允许这些文件系统之间进行一定程度的共享。这种共享基于客户端-服务器关系。一台机器可以是客户端、服务器，或者同时是两者。共享可以在任何一对机器之间进行。

为了确保机器独立性，对远程文件系统的共享只影响客户端机器，对其他机器没有影响。这种设计使得每台机器可以独立管理自己的文件系统，同时可以选择性地共享部分资源。

该架构图展示了NFS的工作原理：客户端通过RPC（Remote Procedure Call）调用与服务器通信，文件句柄作为访问远程文件的唯一标识符。

要使一台机器（例如M1）能够像访问本地文件一样访问远程服务器上的目录，首先需要执行挂载操作。挂载操作将远程目录附加到本地目录树中的指定位置。挂载后，用户通过本地路径访问时，系统自动将操作转发到远程服务器。

挂载操作需要指定远程服务器的名称和目录路径。挂载完成后，用户在M1上访问该目录时，体验与访问本地文件相同，所有操作都通过网络自动转发到远程服务器。

例如，假设有三台机器U、S1和S2，U原本只能访问自己的文件。如果将S1上的/usr/shared挂载到U的/usr/local，那么U上的用户访问/usr/local/dir1时，实际上是在访问S1上的文件。原来U自己的/usr/local内容会被挂载的文件系统覆盖。只要有适当的权限，任何远程目录都可以这样挂载到本地。

挂载协议

挂载协议用于在客户端和服务器之间建立初始连接。当客户端要将远程服务器上的目录挂载到本地时，系统将挂载请求通过网络发送到服务器。服务器检查自己的导出列表（export list），确认该目录是否允许被该客户端挂载。如果允许，服务器返回文件句柄，文件句柄是后续访问远程文件的唯一标识符。

每次挂载时，客户端需要指定远程服务器的名称和要挂载的目录路径。服务器收到请求后，查询导出列表，确认该目录是否可以被该客户端挂载。如果验证通过，服务器返回文件句柄。客户端后续访问该目录时，操作系统使用文件句柄通过网络定位实际的文件。

服务器还维护挂载客户端的信息，记录哪些客户端挂载了哪些目录。这样，当服务器需要维护或重启时，可以通知所有相关的客户端。除了挂载和卸载操作外，协议还支持查询服务器当前可用的导出目录，便于系统管理和使用。

NFS协议

NFS协议提供了一套RPC过程，用于远程文件操作。该协议支持以下操作：

在目录中搜索文件
读取一组目录条目
操作链接和目录
访问文件属性
读取和写入文件

这些过程只能在为远程挂载目录建立文件句柄后调用。

NFS服务器的一个重要特性是无状态设计：服务器不维护客户端的状态信息。每次客户端发送请求时，必须携带所有必要的信息，包括文件标识符和文件偏移量。这种设计使得服务器重启后无需恢复状态，提高了系统的可靠性。

为了保证数据持久性，每次客户端写入数据时，服务器在回复之前必须将数据同步写入磁盘。虽然这种同步写入会降低写入性能，但确保了数据不会因服务器崩溃而丢失。一些服务器实现采用带电池备份的缓存（battery-backed cache），将数据先写入受保护的内存，这样既保证了性能又确保了数据安全。

NFS协议本身不提供文件锁定功能。多个用户同时写入同一文件时，数据可能会发生冲突。如果需要文件锁定功能，必须使用其他机制，如网络锁定管理器（Network Lock Manager）来配合NFS使用。

路径名翻译

NFS的路径名翻译是将完整路径（如/usr/local/dir1/file.txt）逐步解析的过程。系统首先查找usr目录，然后进入local，接着是dir1，最后定位到file.txt。每一步解析都需要向远程服务器发送RPC请求，查询目录中是否存在下一级路径组件。

如果路径中包含挂载点，例如local是挂载的远程目录，那么每次目录查找都需要与服务器通信。这种逐级查找的方式虽然效率较低，但这是必要的，因为每台客户端的挂载配置可能不同，服务器无法预先知道客户端的挂载结构。

为了提高查找性能，客户端会缓存已解析的目录信息。当再次查找类似路径时，可以直接使用缓存的结果，避免重复的RPC请求。如果服务器端的目录结构发生变化，客户端检测到缓存信息与服务器返回的信息不一致时，会清除缓存并重新查询。

有时会遇到级联挂载（cascading mount）的情况，即将一个远程文件系统挂载到另一个已挂载的远程目录下。在这种情况下，路径解析可能需要与多个服务器通信。当在已挂载的远程目录中查找时，系统看到的是底层目录的内容，而不是挂载点本身。

远程操作

除了打开和关闭文件外，常规UNIX文件操作的系统调用与NFS协议RPC之间存在几乎一对一的对应关系。因此，远程文件操作可以直接翻译成相应的RPC调用。

从概念上讲，NFS遵循远程服务范式；但在实际实现中，为了性能优化，系统采用了缓冲和缓存技术。远程操作与RPC之间并不总是直接对应。相反，文件块和文件属性通过RPC获取并缓存在本地。后续的远程操作使用缓存的数据，但受到一致性约束的限制。

NFS维护两个缓存：文件属性（inode信息）缓存和文件块缓存。当文件被打开时，内核检查远程服务器以获取或重新验证缓存的属性。只有当相应的缓存属性是最新的时，才使用缓存的文件块。属性缓存在默认60秒后失效。系统使用预读（read-ahead）和延迟写入（delayed write）技术来优化性能。客户端在服务器确认数据已写入磁盘之前不会释放延迟写入块。延迟写入甚至在文件以冲突模式并发打开时也会保留。因此，NFS不保留严格的UNIX语义。

为了性能优化，一致性语义变得复杂。例如，在一台机器上创建的新文件可能在其他位置30秒内不可见。此外，对一个站点的文件写入可能对同时打开该文件的其他站点可见，也可能不可见。新打开的文件只能观察到已经刷新到服务器的更改。因此，NFS既不提供严格的UNIX语义，也不提供Andrew文件系统的会话语义。尽管存在这些限制，NFS的实用性和良好性能使其成为最广泛使用的多供应商分布式文件系统。

一致性语义

在使用文件系统时，一个关键问题是多个用户同时访问同一文件时的一致性保证：不同用户看到的内容是否一致？一个用户的修改何时对其他用户可见？这些问题由文件系统的一致性语义（consistency semantics）来定义。

一致性语义规定了多个用户并发访问同一文件时，文件内容的同步规则。例如，用户A写入数据后，用户B是否能够立即看到这些更改，还是需要等待一段时间？这些规则由文件系统的设计决定。

文件I/O的一致性语义比进程同步更复杂，因为涉及磁盘和网络操作，这些操作的延迟远高于内存操作。要实现远程磁盘操作的原子性，可能需要多次网络往返，这会显著降低性能。因此，许多文件系统在一致性保证方面做出权衡，在性能和一致性之间寻找平衡点。Andrew文件系统是在一致性语义设计方面的一个代表性例子。

为了便于讨论，我们将从打开文件到关闭文件之间的所有操作定义为一个会话（session）。也就是说，open()和close()之间的所有读写操作构成一次完整的文件访问会话。接下来，我们讨论不同文件系统如何处理一致性语义。

UNIX语义

UNIX文件系统采用以下一致性语义：

用户对打开文件的写入立即对同时打开该文件的其他用户可见。
共享文件指针模式允许用户共享指向文件内当前位置的指针。因此，一个用户移动文件指针会影响所有共享用户。在这种模式下，一个文件只有一个物理映像，所有访问，无论其来源如何，都交织在一起。

在UNIX语义中，一个文件与单一物理映像相关联。对这个单一映像的并发访问会导致用户进程的延迟，因为系统需要协调多个用户的访问。

该时序图展示了UNIX语义的工作方式：用户A的写入操作立即对用户B可见，两者共享同一个文件指针。

会话语义

Andrew文件系统采用以下一致性语义：

用户对打开文件的写入在文件关闭之前对同时打开同一文件的其他用户不可见。
文件关闭后，对文件所做的更改只在稍后开始的会话中可见。已经打开该文件的实例不反映这些更改。

根据这些语义，一个文件可以暂时与多个（可能不同的）映像同时关联。因此，多个用户被允许同时对文件的不同映像执行读取和写入访问，而不会相互延迟。几乎没有对访问调度的约束。

该时序图展示了会话语义的特点：每个用户在自己的会话中看到文件的私有版本，只有在文件关闭并重新打开后，其他用户才能看到更改。

不可变共享文件语义

另一种一致性语义是不可变共享文件（immutable shared file）语义。当文件被创建者标记为共享后，该文件变为只读，任何用户都不能再修改它。

不可变文件具有两个重要特性：首先，文件名不会被重用，即该文件名不会被分配给其他文件；其次，文件内容不会被修改。因此，只要看到该文件名，就可以确定其内容永远不会改变。在分布式系统中，这种语义实现起来相对简单，因为所有操作都是只读的，避免了并发写入的复杂性。

总结

现代操作系统支持多种文件系统类型，包括专用和通用文件系统。卷可以灵活地挂载到系统目录结构中，通常至少有一个可引导的文件系统，用于存储操作系统和启动代码。

在多用户环境中，文件和目录关联元数据信息，包括所有者和权限设置，确保文件共享和保护。卷可以由单个分区或多个分区组成，操作系统通过分层结构和虚拟文件系统接口，实现对不同文件系统的无缝访问。

远程文件系统使得用户可以像访问本地文件一样操作远程资源，通过NFS或CIFS等协议实现。为了保证安全性，挂载和访问时需要认证用户身份。分布式系统还使用DNS等服务来统一用户名空间和认证方式。实现文件共享后，操作系统需要选择合适的一致性语义，如UNIX语义、会话语义或不可变文件语义，来协调多用户对同一文件的并发访问。

小练习

关于文件系统挂载，以下哪个描述是正确的？

关于虚拟文件系统（VFS），以下哪个描述是正确的？

关于NFS（网络文件系统），以下哪个描述是正确的？

关于一致性语义，以下哪个描述是正确的？

关于tmpfs文件系统，以下哪个描述是正确的？

关于Linux VFS的对象类型，以下哪个描述是正确的？

关于NFS服务器的设计，以下哪个描述是正确的？

关于文件共享机制，以下哪个描述是正确的？

1. 文件系统挂载路径计算

假设一个系统有以下挂载配置：

根文件系统挂载在/
用户文件系统挂载在/home
系统文件系统挂载在/usr
远程NFS文件系统挂载在/mnt/nfs

请回答：

访问路径/home/user1/documents/file.txt，文件实际存储在哪个文件系统？
访问路径/usr/bin/ls，文件实际存储在哪个文件系统？
访问路径/mnt/nfs/shared/data.dat，文件实际存储在哪个文件系统？
如果/home/user1目录下有一个符号链接指向/mnt/nfs/shared，访问/home/user1/shared/file.txt时，文件实际存储在哪里？

文件系统挂载路径计算：

已知挂载配置：

根文件系统：/
用户文件系统：/home
系统文件系统：/usr
远程NFS文件系统：/mnt/nfs

1. 访问路径/home/user1/documents/file.txt：

路径/home是用户文件系统的挂载点，因此：

/home及其所有子目录（包括/home/user1/documents/file.txt）都存储在用户文件系统中

答案： 用户文件系统

2. 访问路径/usr/bin/ls：

路径/usr是系统文件系统的挂载点，因此：

/usr及其所有子目录（包括/usr/bin/ls）都存储在系统文件系统中

答案： 系统文件系统

3. 访问路径/mnt/nfs/shared/data.dat：

路径/mnt/nfs是远程NFS文件系统的挂载点，因此：

/mnt/nfs及其所有子目录（包括/mnt/nfs/shared/data.dat）都存储在远程NFS文件系统中

答案： 远程NFS文件系统

4. 符号链接/home/user1/shared指向/mnt/nfs/shared：

当访问/home/user1/shared/file.txt时：

系统首先解析路径，发现/home/user1/shared是一个符号链接
符号链接指向/mnt/nfs/shared
系统跟随符号链接，实际访问的是/mnt/nfs/shared/file.txt
因此文件实际存储在远程NFS文件系统中

答案： 远程NFS文件系统

总结： 文件系统的挂载点决定了路径对应的实际存储位置。挂载点及其所有子目录都存储在对应的文件系统中。符号链接可以跨越文件系统边界，指向其他文件系统中的路径。

2. NFS路径名翻译分析

假设NFS客户端要访问路径/usr/local/dir1/file.txt，该路径在远程服务器上。请分析：

路径名翻译需要多少次RPC请求？
如果客户端缓存了/usr/local目录的信息，可以减少多少次RPC请求？
如果路径中包含挂载点（例如local是挂载的远程目录），路径解析过程如何变化？
比较有缓存和无缓存情况下的性能差异

NFS路径名翻译分析：

已知路径： /usr/local/dir1/file.txt

1. 无缓存情况下的RPC请求：

NFS的路径名翻译是逐步解析的过程，每一步都需要向远程服务器发送RPC请求：

第1步：查找usr目录（在根目录/中查找）
- RPC请求：LOOKUP("/", "usr")
- 返回：usr目录的文件句柄
第2步：查找local目录（在/usr目录中查找）
- RPC请求：LOOKUP(usr_handle, "local")
- 返回：local目录的文件句柄
第3步：查找dir1目录（在/usr/local目录中查找）
- RPC请求：LOOKUP(local_handle, "dir1")
- 返回：dir1目录的文件句柄
第4步：查找file.txt文件（在/usr/local/dir1目录中查找）
- RPC请求：LOOKUP(dir1_handle, "file.txt")
- 返回：file.txt文件的文件句柄

总RPC请求次数：4次

2. 有缓存情况：

如果客户端缓存了/usr/local目录的信息（包括目录条目和文件句柄），那么：

第1步：查找usr目录
- 检查缓存：未命中，需要RPC请求
- RPC请求：1次
第2步：查找local目录
- 检查缓存：命中！直接使用缓存的local目录句柄
- RPC请求：0次（使用缓存）
第3步：查找dir1目录
- RPC请求：LOOKUP(local_handle, "dir1")
- RPC请求：1次
第4步：查找file.txt文件
- RPC请求：LOOKUP(dir1_handle, "file.txt")
- RPC请求：1次

总RPC请求次数：3次（减少了1次）

3. 包含挂载点的情况：

如果local是挂载的远程目录，路径解析过程会发生变化：

第1步：查找usr目录（在本地文件系统中）
- 本地查找，无需RPC
第2步：发现local是挂载点
- 系统切换到挂载的远程文件系统
- 获取远程文件系统的根目录句柄（通过挂载协议）
第3步：在远程文件系统中查找dir1目录
- RPC请求：LOOKUP(remote_root_handle, "dir1")
- 返回：dir1目录的文件句柄
第4步：在远程文件系统中查找file.txt文件
- RPC请求：LOOKUP(dir1_handle, "file.txt")
- 返回：file.txt文件的文件句柄

总RPC请求次数：2次（在远程文件系统中）

4. 性能比较：

情况	RPC请求次数	网络延迟	说明
无缓存	4次	4 × 网络延迟

3. 一致性语义场景分析

假设三个用户（A、B、C）同时访问同一个文件data.txt，时间线如下：

t1: 用户A打开文件
t2: 用户B打开文件
t3: 用户A写入数据"Hello"
t4: 用户B读取文件
t5: 用户A关闭文件
t6: 用户C打开文件
t7: 用户C读取文件
t8: 用户B关闭文件

请分析：

在UNIX语义下，用户B在t4时刻读取到的内容是什么？
在会话语义下，用户B在t4时刻读取到的内容是什么？
在会话语义下，用户C在t7时刻读取到的内容是什么？
比较两种语义的差异

一致性语义场景分析：

时间线：

t1: 用户A打开文件（会话1）
t2: 用户B打开文件（会话2）
t3: 用户A写入数据"Hello"
t4: 用户B读取文件
t5: 用户A关闭文件
t6: 用户C打开文件（会话3）
t7: 用户C读取文件
t8: 用户B关闭文件

1. UNIX语义：用户B在t4时刻读取到的内容

UNIX语义规则：用户对打开文件的写入立即对同时打开该文件的其他用户可见。

t1: 用户A打开文件，文件初始内容为空（或原有内容）
t2: 用户B打开文件，与用户A共享同一个文件指针和文件映像
t3: 用户A写入"Hello"，根据UNIX语义，这个写入立即对用户B可见
t4: 用户B读取文件，此时文件内容已经包含"Hello"

答案： 用户B读取到"Hello"（用户A的写入立即可见）

2. 会话语义：用户B在t4时刻读取到的内容

会话语义规则：用户对打开文件的写入在文件关闭之前对同时打开同一文件的其他用户不可见。

t1: 用户A打开文件（会话1），文件初始内容为空
t2: 用户B打开文件（会话2），看到文件的初始内容
t3: 用户A写入"Hello"，但这个写入只在会话1中可见，对会话2不可见
t4: 用户B读取文件（仍在会话2中），看到的是文件的初始内容，不包含"Hello"

答案： 用户B读取到文件的初始内容（不包含"Hello"），因为用户A的写入在关闭文件前不可见

3. 会话语义：用户C在t7时刻读取到的内容

会话语义规则：文件关闭后，对文件所做的更改只在稍后开始的会话中可见。

t5: 用户A关闭文件，此时"Hello"被写入到文件系统中
t6: 用户C打开文件（会话3），这是一个新的会话
t7: 用户C读取文件，由于这是新会话，可以看到用户A关闭文件后的更改

答案： 用户C读取到"Hello"（新会话可以看到关闭后的更改）

注意： 用户B在t8时刻关闭文件时，仍然看到的是初始内容，因为用户B的会话在用户A关闭文件之前就已经开始了。

4. 两种语义的比较：

特性	UNIX语义	会话语义
写入可见性	立即可见	关闭文件后才可见
文件指针	共享	每个会话独立
并发控制	需要协调	几乎无约束
性能	可能较慢（需要同步）	较快（无同步开销）
一致性	强一致性	弱一致性
适用场景	需要实时协作	独立编辑场景

场景分析总结：

UNIX语义：

t4时刻：用户B看到"Hello"（立即可见）
优点：实时协作，数据一致性强
缺点：需要同步机制，可能影响性能

会话语义：

t4时刻：用户B看到初始内容（不可见）
t7时刻：用户C看到"Hello"（新会话可见）
优点：无同步开销，性能好
缺点：数据一致性较弱，可能丢失并发修改

结论： UNIX语义适合需要实时协作的场景，如多人同时编辑文档。会话语义适合独立编辑场景，如版本控制系统，每个用户在自己的会话中工作，最后合并更改。

4. VFS对象关系分析

假设一个进程打开文件/home/user1/documents/report.txt，请分析：

在这个过程中，VFS会创建哪些对象？
这些对象之间的关系是什么？
如果另一个进程也打开同一个文件，VFS对象如何共享？
文件关闭时，哪些对象会被释放？

VFS对象关系分析：

已知操作： 进程打开文件/home/user1/documents/report.txt

1. VFS创建的对象：

当进程打开文件时，VFS会创建以下对象：

a) superblock对象：

表示包含该文件的文件系统
如果文件系统已经挂载，可能已经存在
包含文件系统的元数据（块大小、文件系统类型等）

b) dentry对象（目录条目）：

/（根目录）
home（目录条目）
user1（目录条目）
documents（目录条目）
report.txt（文件条目）

c) inode对象：

表示report.txt文件本身
包含文件的元数据（大小、权限、时间戳等）
包含指向数据块的指针

d) file对象：

表示打开的文件实例
包含文件指针（当前读写位置）
包含访问模式（读、写、追加等）
包含指向inode对象的指针

2. 对象之间的关系：

text

superblock对象
    ↓
dentry对象链：/ → home → user1 → documents → report.txt
    ↓
inode对象（report.txt的元数据）
    ↓
file对象（打开的文件实例）

关系说明：

superblock → dentry：superblock包含根目录的dentry
dentry → dentry：dentry形成路径链，每个dentry指向下一个dentry
dentry → inode：最终的dentry（report.txt）指向文件的inode
file → inode：file对象包含指向inode的指针
file → dentry：file对象也包含指向dentry的指针（用于路径信息）

3. 多进程共享同一文件：

如果另一个进程也打开同一个文件/home/user1/documents/report.txt：

共享的对象：

superblock对象：共享（同一个文件系统）
dentry对象链：共享（路径相同）
inode对象：共享（同一个文件）

独立的对象：

file对象：每个进程有自己独立的file对象
- 每个进程有自己的文件指针
- 每个进程可以有不同的访问模式

关系图：

text

进程1的file对象 → inode对象（共享）
进程2的file对象 → inode对象（共享）

引用计数：

inode对象维护引用计数，记录有多少个file对象指向它
当进程打开文件时，引用计数+1
当进程关闭文件时，引用计数-1
只有当引用计数为0时，inode对象才会被释放

4. 文件关闭时的对象释放：

当进程调用close()关闭文件时：

步骤1：释放file对象

从进程的打开文件表中移除file对象
减少inode对象的引用计数

步骤2：检查inode对象

如果inode的引用计数 > 0：保留inode对象（其他进程仍在使用）
如果inode的引用计数 = 0：
- 检查inode是否被修改（脏inode）
- 如果被修改，将inode写回磁盘
- 从内存中释放inode对象

步骤3：dentry对象

dentry对象通常被缓存，不会立即释放
系统使用LRU策略管理dentry缓存

对象类型	创建时机	共享情况	释放时机
superblock	文件系统挂载	所有进程共享	文件系统卸载
dentry	路径解析	所有进程共享（缓存）	缓存淘汰
inode	文件首次打开	所有进程共享	引用计数为0
file	每次open()	每个进程独立	进程close()