16 / 16

非平稳数据分析

unwatermarked_Gemini_Generated_Image_tjd56mtjd56mtjd5 (1)(1).png

在现代经济学研究中，大多数重要的经济变量都表现出强烈的趋势性特征。无论是GDP、消费、价格水平、股票指数，还是汇率、货币供应量、进出口贸易额等变量，往往在长期数据中都呈现明显的上升或下降趋势。以中国为例，从1978年至今，GDP和居民收入经历了几十倍乃至上百倍的增长，CPI、股票指数等金融和物价变量也同样表现出长期不可逆的趋势运动。这种趋势的根本原因在于技术进步、人口结构变化、制度演变、资本积累等推动力驱动着经济系统从均衡状态持续偏离，使变量的数据轨迹表现出非平稳性。换言之，这些变量没有固定的均值和方差，呈现出“记忆效应”和路径依赖。

非平稳数据并非个例，而是宏观和金融经济学研究中的常态现象。几乎所有重要的经济金融变量，诸如利率、债券价格、国际大宗商品价格、各类金融资产指数、财政收支、国际收支等，都体现出强烈的趋势或结构变动特征。这类数据由于不满足传统意义上的平稳性假设，因而统一被称为“非平稳数据”或“集成过程”（integrated process），其建模和推断需要专门的理论与分析方法。

分析非平稳数据已成为现代时间序列计量经济学的重要组成部分。众多实证工作表明，如果简单地将非平稳变量直接应用于传统的回归分析，就可能出现严重的问题。最突出的是所谓“虚假回归”（spurious regression）现象：即使两个变量在经济上毫无真实联系，仅因为它们分别具有趋势，也能在回归中显示高度显著的统计关系，导致极高的R²和两个系数都显著偏离零。这种“镜中花、水中月”式的假象，会误导结论，让研究者得出与经济实际不符甚至相反的解释。例如，随机两组各自独立但都存在趋势的时间序列，回归后经常能得到“统计上显著”的回归系数。

因此，处理非平稳数据的分析不仅是计量经济学的技术难题，更是从根本上影响宏观经济理论、政策制定与金融实证的基础问题。准确识别和建模这些变量的非平稳特征，是获得有经济意义、能够指导实际决策的研究结论的前提条件。

非平稳性的普遍存在

宏观经济变量和金融市场数据普遍存在显著的长期趋势性，这在中国及国际数据中表现尤为突出。例如，1980年至2020年间中国的名义GDP从约4500亿元增长到超过100万亿元，消费者价格指数（CPI）、城镇居民人均可支配收入、对外贸易总额等一系列重要指标也都持续上升，远未满足平稳性的统计要求。

同样，金融市场方面，上证综指自1990年设立时的100点基准一路上升，尤其是在2005-2007年和2014-2015年出现过大幅波动，但长期趋势持续向上。例如，2019年底上证综指已接近3000点，高峰时期曾突破6000点。深证成指和深圳创业板指数自设立以来也表现出显著的长期上升趋势。此外，人民币汇率、M2广义货币供应量、全国房地产价格等金融数据，自上世纪90年代以来均呈现明显的单向或趋势性变动。这些中国经济和金融市场的关键变量，其走势深刻体现了技术进步、城镇化、人口结构变化和资本投入等因素对中国经济长期增长的驱动力，也凸显了非平稳性是中国宏观和金融时间序列数据分析中的普遍现象。

单位根过程与积分概念

单位根过程是理解非平稳数据与经济变量长期趋势的核心基础。其主要特征在于：任何一次冲击都会对未来产生永久性影响，而非如平稳序列那样渐次消散。用数学术语表述，单位根过程是一类自回归系数绝对值为 1 的时间序列过程。这类过程在宏观和金融经济中屡见不鲜，中国的GDP、CPI和一线城市房价等核心指标均表现出显著的单位根和非平稳性特征。

随机游走过程的基本特征

以中国CPI月度数据为例，其演化可以抽象为带漂移的随机游走模型：

y_t = \mu + y_{t-1} + \varepsilon_t

其中， $\mu$ 是漂移项（反映长期趋势）， $\varepsilon_t$ 为白噪声扰动。通过反复代入，可得到:

y_t = y_0 + \mu t + \sum_{i=0}^{t-1} \varepsilon_{t-i}

这一式揭示以下两大特征：

确定性趋势： $\mu t$ 使得序列呈现持续性线性趋势（如中国30年CPI和GDP长期上涨）。
随机趋势： $\sum\varepsilon_{t-i}$ 累积所有历史冲击，反映“记忆效应”，其影响不能被均值回归所消解。

方差发散性

随机游走过程的方差递推关系为：

\mathrm{Var}(y_t) = t \cdot \sigma^2_\varepsilon

意味着方差随时间线性增长，样本越长，变量波动越大。China的房价、货币供应量等序列也常显示这一特性。这是经典的非平稳性征象。

积分阶数(I(d))的概念

积分过程定义

在计量经济学中，如果一个序列需要差分 $d$ 次之后才变为平稳序列，则称为 $d$ 阶积分过程，记为 $I(d)$ 。例如，中国名义GDP的对数约为 $I(1)$ ，说明其一阶差分（即增长率）为平稳序列。常见变量的积分阶数如下表：

积分阶数	特征	中国实际例子	经济含义
I(0)	平稳序列	1年期贷款利率、CPI同比增长率	围绕均值波动
I(1)	一阶积分	GDP总量、房价指数、M2（取对数）	长期增长趋势，增长率稳定
I(2)	二阶积分	城市土地价格指数、恶性通胀年份价格指数	增长率本身亦不可逆
I(3)	三阶积分	极端危机期间的部分大宗商品价格	增长率的变动也无均值

ARIMA模型的含义

积分概念产生了著名的ARIMA（p,d,q）模型：

(1-L)^d y_t = \mu + \gamma_1 (1-L)^d y_{t-1} + \dots + \gamma_p (1-L)^d y_{t-p} + \varepsilon_t - \theta_1\varepsilon_{t-1} - \dots - \theta_q\varepsilon_{t-q}

其中 $(1-L)^d$ 为 $d$ 次差分算子， $L$ 为滞后算子。ARIMA已广泛应用于中国CPI、GDP等宏观变量的实证建模与预测。

中国CPI的自相关示例分析

我们以中国CPI（月度对数）为例，比较其不同差分阶数下的自相关函数：

图中可见，原序列自相关系数几乎恒为1，典型的非平稳过程特征；而经过一次、二次差分后，自相关系数明显下降，数据向平稳序列转换。

虚假回归的严重问题

非平稳数据直接回归极易产生“镜花水月”式的虚假回归。例如，若用中国M2与上证指数（两个单位根过程）做OLS回归，即使两者经济上毫无联系，结果仍可能出现高 $t$ 值与 $R^2$ ，看似显著。这是因为各自的趋势项导致回归残差序列也带趋势，统计推断失效。

Granger-Newbold及Phillips的发现

Granger和Newbold通过模拟研究发现，当传统临界值（如 $1.96$ ）用于检验这些变量时，虚假显著比例极高。他们建议 $t$ 统计量的临界值应提高到 $11.2$ 才能降低第一类错误。

Phillips在理论上严密证明了上述现象，并提出标准化 $t$ 统计量应为 $t_\beta / \sqrt{T}$ ，其中 $T$ 为样本容量。例如，时，合适的临界值已接近15。这一发现对中国金融数据滥用回归也有重要警示意义。

三种基本的非平稳过程举例

理解不同非平稳类型对选择模型和实证推断极为关键。以中国数据类比说明：

纯随机游走
$y_t = y_{t-1} + \varepsilon_t$
如90年代人民币汇率每日波动，具有随机性但无明显趋势。
带漂移的随机游走

中国主要经济变量的积分特征与政策含义

中国实际数据中，不同变量积分阶数如下：

变量	积分阶数	经济解释	政策含义
实际GDP（对数）	$I(1)$	长期稳定增长	增长型政策效果持久
CPI（对数）	$I(1)$	价格水平长期抬升	通胀治理难易与汇率政策
名义汇率（对数）	$I(1)$	长期趋势性变化	汇率干预具持久性
SHIBOR利率	$I(0)$	围绕均值波动	金融调控短期作用明显
上证指数（对数）

政策冲击的持久性

如中国GDP为 $I(1)$ 过程，则一次性的财政或货币宽松将永久提升产出水平，而非仅短期推动。这一发现也为经济治理与制度设计带来深刻启示。

判断变量的积分阶数不仅事关统计推断，更影响政策含义和经济解释。误判积分阶数，易导致对政策长期效力的误解。

单位根检验方法

unwatermarked_Gemini_Generated_Image_foedjtfoedjtfoed (1)(1).png

准确识别时间序列是否包含单位根（unit root）是非平稳数据分析中的关键第一步。如果对序列平稳性判断失误，后续的模型设定和推断将存在根本性缺陷。因此，研究者必需使用专门为单位根设计的统计检验方法。

Dickey-Fuller检验的理论基础

Dickey-Fuller（DF）检验的核心思想是判断自回归一阶过程（AR(1)）的系数是否等于 $1$ ，即：

y_t = \gamma y_{t-1} + \varepsilon_t

原假设（ $H_0$ ）： $\gamma = 1$ （序列存在单位根，非平稳）
备择假设（ $H_1$ ）： $\gamma < 1$ （序列平稳）

DF检验通过估计 $\gamma$ 并判断其是否显著小于 $1$ 来决定序列平稳性。

标准推断的失效

在单位根假设下（ $\gamma = 1$ ），传统 $t$ 检验已失效。Dickey和Fuller通过理论和数值模拟发现：

估计量的偏误： $\hat{\gamma}$ 在有限样本下存在向下偏差；
收敛速度异常： $\hat{\gamma}$ 的方差为 $O(\frac{1}{T^2})$ ，显著慢于通常的；

因此，不能直接借用常规回归的t检验和临界值。

特殊的临界值

单位根检验需要查表获取专门的临界值。下表比较了DF统计量与传统 $t$ 分布的临界值：

样本量	5%临界值	1%临界值	传统t分布
25	-1.95	-2.66	-1.96
50	-1.95	-2.62	-1.96
100	-1.95	-2.60	-1.96
$\infty$	-1.95	-2.58	-1.96

可以看到，单位根检验的临界值绝对值通常比 $t$ 分布更大，说明单位根显著性判断更为严格。拒绝 $H_0$ （认为序列平稳）需要更强的证据。

三种基本的DF检验形式

根据时间序列的特征，可以采用不同的DF检验形式：

形式1：无截距的纯随机游走

\Delta y_t = \gamma^* y_{t-1} + \varepsilon_t

其中 $\gamma^* = \gamma - 1$ ，检验 $H_0: \gamma^* = 0$ 。适用于均值无漂移的序列。

形式2：带漂移的随机游走

\Delta y_t = \alpha + \gamma^* y_{t-1} + \varepsilon_t

包含常数项 $\alpha$ ，适用于均值具有长期趋势的序列。

形式3：带趋势的平稳过程

\Delta y_t = \alpha + \beta t + \gamma^* y_{t-1} + \varepsilon_t

包含时间趋势 $\beta t$ ，用于区分确定性趋势与随机趋势。

选择哪种形式，应结合数据特性（如绘制序列图、理论预期等）判断。

增强Dickey-Fuller (ADF) 检验

ADF检验的必要性

标准DF检验假定误差项 $\varepsilon_t$ 为白噪声。但实际宏观数据中，误差常存在自相关、异方差等问题，导致一阶DF检验失效。ADF（Augmented Dickey-Fuller）检验通过引入滞后差分修正误差相关性：

\Delta y_t = \alpha + \beta t + \gamma^* y_{t-1} + \sum_{j=1}^{p} \phi_j \Delta y_{t-j} + \varepsilon_t

其中 $p$ 为滞后阶数，通过引入 $\Delta y_{t-j}$ 控制高阶相关性，有效提升检验的适用性和可靠性。

滞后阶数的选择

$p$ 的选取直接影响检验结果，常见方法有：

选择方法	具体做法	优缺点
信息准则	用AIC/BIC选择最优 $p$	客观但可能过拟合
序贯检验	从较大 $p$ 逐步检验直至最后一阶	简单但主观性较强
Schwert规则	$p = \text{int}[12 \times (T/100)^{0.25}]$	经验法，直观但不总最优

常见补充：ADF结果需结合残差的自相关检查，以防误判。

宏观变量的单位根检验实证

以中国1990–2020年主要宏观数据为例，单位根（ADF）检验核心结果如下：

变量	检验形式	$\gamma$ 估计	DF $\tau$ 统计量	5%临界值	结论
实际GDP（对数）	带趋势	0.973	-2.01	-3.45	不拒绝 $H_0$ ：单位根
CPI（对数）	带常数项	0.987	-2.23	-2.86	不拒绝 $H_0$ ：单位根

经济学解释：

大部分核心变量具有单位根特性：中国实际GDP、CPI、M2和汇率原始序列均为非平稳 $I(1)$ 过程，说明它们对外部冲击的影响具有持久性，不易恢复到均值水平。
利率相对平稳：SHIBOR等货币市场短期利率表现为 $I(0)$ 平稳过程，更好地反映了货币市场的短期均衡机制。
经济含义：非平稳变量说明政策、外部冲击“记忆”悠久，增长性变量建模与预测需采用差分或协整技术，不能直接进行OLS回归，否则可能出现虚假回归。

Phillips-Perron (PP) 检验

PP检验是DF检验的扩展，同样适用于中国数据，允许更复杂的误差结构（如序列相关性和异方差）。主要优势包括：

误差项更一般：允许 $\varepsilon_t$ 存在各种自相关和异方差形态，常见于经济数据。
非参数修正：利用Newey-West等方法修正统计量，结果对误差结构更稳健。
宽松分布假设：避免对误差白噪声的严格要求，更适合实际经济序列。

PP检验的主统计量类似于修正的DF型：

Z_{\tau} = \sqrt{c_0 / a} \cdot \frac{\hat{\gamma} - 1}{v} - \frac{1}{2} \frac{a - c_0}{T v \cdot \sqrt{as^2}}

其中 $a$ 为长期方差估计， $c_0$ 为当期方差， $v$ 和 $s^2$ 涉及误差项的方差结构。

KPSS检验

检验逻辑的反向设定

KPSS（Kwiatkowski–Phillips–Schmidt–Shin）检验与DF/ADF正好相反，原假设为：“序列平稳”，备择为：“单位根过程”：

原假设： $H_0$ ：序列平稳
备择假设： $H_1$ ：序列非平稳（单位根）

统计量公式：

KPSS = \frac{1}{T^2 \hat{\sigma}^2} \sum_{t=1}^T E_t^2

其中 $E_t = \sum_{i=1}^t e_i$ ， $e_i$ 为回归残差，为残差的方差估计。

互补检验的常规用法

实务中，DF/ADF和KPSS双重结合可以有效判别单位根，具体判别框架如下：

DF检验结果	KPSS检验结果	判断结论
拒绝 $H_0$	不拒绝 $H_0$	序列平稳
不拒绝 $H_0$

单位根检验的推断结果直接关系到中国宏观数据建模路径。如果将 $I(1)$ 变量误当成平稳 $I(0)$ ，或反之，会导致经济判断和政策分析出现严重偏差。

中国宏观数据的单位根分析

应用于中国1990–2020年宏观数据，主要变量单位根检验如下：

变量	ADF统计量	5%临界值	$p$ 值	结论	经济含义
实际GDP（对数）	-1.85	-3.45	0.68	$I(1)$	增长冲击永久性
CPI（对数）	-2.12	-3.45	0.52	$I(1)$	通胀具有持续性
人民币汇率（对数）	-2.35	-2.86	0.41	$I(1)$	汇率政策长期效应
M2（对数）	-1.98	-3.45	0.61	$I (1)$

一阶差分后的平稳性检验

变量（一阶差分）	ADF统计量	5%临界值	$p$ 值	结论
$\Delta$ GDP	-8.45	-2.86	$<0.01$	$I(0)$
$\Delta$ CPI	-6.78	-2.86	$<0.01$

这些数据再次验证：中国主要宏观变量在原始序列上基本都是 $I(1)$ 过程，但一阶差分均为 $I(0)$ 平稳过程，这为后续协整建模奠定基础。

结构变化对单位根检验的影响

结构断点的重要性

经济数据常常面临重大制度、政策或突发事件的结构变动。这些“断点”会导致序列表现为非线性趋势叠加，若单位根检验时忽视结构变化，则容易做出错误结论。例如：

中国1978年改革开放
1992年市场经济体制确立
2001年加入WTO

上述事件均可能影响宏观序列的时间趋势。

考虑结构变化的单位根检验（Perron方法）

Perron等人发展了考虑结构突变的单位根检验，一般模型如下：

\Delta y_t = \alpha + \beta t + \gamma^* y_{t-1} + \theta DT_t + \delta DU_t + \phi (DU_t \times y_{t-1}) + \varepsilon_t

其中：

$DT_t$ ：趋势断点虚拟变量（通常在断点后 $t$ 递增）
$DU_t$ ：水平断点虚拟变量（断点后取1，前为0）

如果检验模型考虑断点后， $\gamma^*$ 显著小于0，则表明变量环绕断点趋势平稳。“伪单位根”问题在中国宏观数据中常见（如改革开放影响GDP系列）。

结构变化型单位根检验有助于正确揭示变量的长期趋势本质，加强实证经济分析的解释力和严谨性。

协整理论与长期均衡关系

协整理论是处理非平稳时间序列数据的核心理论之一。它回答了一个重要问题：如何在非平稳变量之间寻找稳定且有意义的长期关系，并有效避免“虚假回归”的统计陷阱。协整分析已成为宏观经济学、金融学等领域的重要实证工具。

协整的基本概念

在宏观经济中，许多重要变量（如GDP、M2、CPI等）表面上呈现明显的随机趋势，即为 $I(1)$ 非平稳。而实际经济理论往往假定这些变量存在某种长期均衡约束。例如，中国的实际GDP和社会消费品零售总额（消费）都随时间上升，但两者的比例长期来看较为稳定。如果两个或多个非平稳变量之间存在这种“同步变动”，并且它们的某种线性组合消除了趋势、变得平稳，则称这些变量协整。

假设 $y_t$ 与 $x_t$ 都是 $I(1)$ 过程，如果存在常数 $\beta$ ，使得

\varepsilon_t = y_t - \beta x_t \sim I(0)

即 $y_t$ 与 $x_t$ 的线性组合是平稳的，则称 $y_t$ 与 $x_t$ 协整，为协整向量。

协整关系刻画了经济变量之间的长期均衡机制。即使短期内因为冲击等因素发生偏离，长期来看变量会有“拉回”均衡的趋势，这一现象称为“均衡回归”或“误差修正”。

中国收入与消费的协整案例分析

以中国近年来城镇居民人均可支配收入（ $y_t$ ）和社会消费品零售总额（ $c_t$ ）为例，这两个变量都呈明显的上升趋势，被证实是 $I(1)$ 过程。但二者间是否存在稳定的收入-消费长期关系？

协整检验过程示例

单位根检验

对 $\ln(\text{收入})$ 和 $\ln(\text{消费})$ 序列做ADF检验，均无法拒绝单位根假设，即序列为 $I(1)$ 。
长期协整回归关系

用OLS估计如下关系：
$\ln(c_t) = \alpha + \beta\, \ln(y_t) + \varepsilon_t$

图中展示了消费与收入的对数值长期同步变化，协整关系十分显著。

误差修正模型（ECM）

误差修正模型（ECM）把短期动态与长期均衡机制结合，有以下通用表达式：

\Delta y_t = \alpha + \beta\, \Delta x_t + \lambda (y_{t-1} - \gamma x_{t-1}) + \varepsilon_t

其中， $\Delta y_t$ 为 $y_t$ 的一阶差分， $(y_{t-1} - \gamma x_{t-1})$ 为滞后一期的长期均衡误差，为误差修正参数。

经济含义举例

参数	经济意义	期望符号
$\beta$	短期弹性	（理论确定）
$\lambda$	误差调整速度	应为负值，表示回归均衡
$\gamma$	长期弹性	（理论确定）

当 $|\lambda|$ 越大时，偏离均衡后的调整速度越快。当 $\lambda = 0$ ，说明系统没有误差修正过程。

Granger表示定理

Granger表示定理奠定了协整与误差修正模型（ECM）的对应关系。定理要点如下：

如果两个 $I(1)$ 变量存在协整关系，则一定存在ECM表示。
反之，若一个系统存在有效的ECM形式表示，则说明原始变量协整。

向量自回归（VAR）模型在存在协整时可以重写为向量误差修正模型（VECM）：

\Delta \mathbf{y}_t = \alpha + \Pi \mathbf{y}_{t-1} + \sum_{i=1}^{p-1}\Gamma_i\,\Delta \mathbf{y}_{t-i} + \varepsilon_t

其中， $\Pi$ 矩阵内蕴含协整向量等长期信息，其秩 $r$ 等于独立协整关系个数。

多变量协整系统

在 $M$ 个变量的系统中，协整秩 $r$ 最多为 $M-1$ ，即最多可存在 $M-1$ 个独立的协整向量。例如，中国“三大需求”（消费、投资、出口）长期增长趋势虽有波动，但可以检验出一至两个协整向量。

当协整秩 $r>1$ 时，协整向量只在某种线性组合下被唯一确定，这时需要引入经济理论、结构假设等外生约束实现识别。否则定量结果可能缺乏独特性。

购买力平价的协整实证（中国案例）

以人民币兑美元汇率与中美价格水平为例，分析多变量协整：

\ln E_t = \ln P_{CN,t} - \ln P_{US,t} + \text{常数}

其中 $E_t$ 为人民币对美元汇率， $P_{CN,t}$ 、 $P_{US,t}$ 分别为中国、美国价格指数。

实证检验

实际对 $\ln E_t$ 、 $\ln P_{CN,t}$ 和 $\ln P_{US,t}$ 构造如下协整回归关系：

\ln E_t = \alpha + \beta_1 \ln P_{CN,t} - \beta_2 \ln P_{US,t} + \varepsilon_t

当发现残差 $\varepsilon_t$ 平稳时，视为三变量存在协整、购买力平价部分成立。

中国1994年汇改后长期数据通常支持“弱形式”购买力平价，即 $\beta_1$ 、 $\beta_2$ 基本接近1，但常有显著偏离。这说明现实中受到贸易壁垒、资本管制、外汇政策等多种因素影响。

协整分析的结论极为依赖样本期与数据特征。宏观制度突变（如人民币汇率形成机制改革、资本账户开放等）极易改变协整结构，因此分析时应区分不同政策阶段，并进行稳健性检验。

Johansen协整检验方法

当系统包含多个变量时，需要使用更系统的方法来检验协整关系的存在和确定协整秩。Johansen方法是目前多变量协整检验中最为核心和广泛应用的方法之一，在宏观计量、金融建模等领域都具有重要应用价值。

Johansen方法的理论基础

向量自回归VAR模型的起点

Johansen方法基于向量自回归（VAR）模型。假设有 $M$ 个 $I(1)$ 变量 $\mathbf{y}_t$ 构成的系统，则VAR( $p$ )模型可写为：

\mathbf{y}_t = \Pi_1 \mathbf{y}_{t-1} + \Pi_2 \mathbf{y}_{t-2} + \cdots + \Pi_p \mathbf{y}_{t-p} + \varepsilon_t

通过矩阵变换（差分化和重参数化），将其改写为向量误差修正模型（VECM）：

\Delta \mathbf{y}_t = \Pi \mathbf{y}_{t-1} + \sum_{i=1}^{p-1} \Gamma_i\,\Delta \mathbf{y}_{t-i} + \varepsilon_t

其中 $\Pi = \sum_{i=1}^p \Pi_i - I$ ， $\Gamma_i = -\sum_{j=i+1}^p \Pi_j$ 。

协整的矩阵分解与秩判别

Johansen方法的核心在于 $\Pi$ 矩阵的秩（rank）分析：

如果 $\mathrm{rank}(\Pi) = M$ ，说明 $\mathbf{y}_t$ 所有变量均为 $I(0)$ ，不存在协整问题。
如果 $r a n k (Π) = 0$ ，则系统无协整关系，每个变量均包含单位根随机趋势。

在有协整时， $\Pi$ 可分解为 $\Pi = \alpha\beta'$ ，其中 $\beta$ 为 $M \times r$ 的协整向量矩阵，定义长期均衡关系； $\alpha$ 为调整系数矩阵，反映各变量偏离均衡后的回归速度。

协整秩的迹检验和最大特征值检验

迹检验 (Trace test)

用于检验原假设“协整向量个数 $\leq r$ ”：

\lambda_{\mathrm{trace}}(r) = -T \sum_{i=r+1}^{M} \ln(1 - \hat\lambda_i)

其中 $T$ 为样本容量， $\hat\lambda_i$ 为样本特征根。

最大特征值检验 (Maximum Eigenvalue test)

检验原假设“协整秩为 $r$ ”对“协整秩为 $r+1$ ”：

\lambda_{\mathrm{max}}(r, r+1) = -T \ln(1 - \hat\lambda_{r+1})

检验类型	原假设	备择假设	适用场景
迹检验	$r \leq r_0$	$r > r_0$	确定协整秩的上限
最大特征值检验	$r = r_0$

实际操作中，常常结合两种检验结果共同判断协整关系数。

中国货币需求的协整实证分析

以中国货币需求为例，介绍Johansen方法在实际经济研究中的应用。

选择的变量包括： $m_t - p_t$ （实际广义货币余额，如M2/CPI）、 $y_t$ （实际GDP或收入）、 $RS_t$ （短期利率，如一年期定存利率）、（长期利率，如10年期国债收益率）、（通胀率，常用CPI同比增速）。理论上的长期货币需求关系可表示为：

(m-p)_t = \delta_0 + \delta_1 y_t + \delta_2 RS_t + \delta_3 RL_t + \delta_4 \Delta p_t

Johansen协整检验结果举例（假定面板）

协整秩假设	迹统计量	临界值(5%)	p值	结论
$r = 0$	88.54	85.18	0.028	拒绝
$r \leq 1$	59.03	60.16	0.091	不拒绝
$r \leq 2$	34.12	41.07	0.191	不拒绝

结论：存在唯一协整关系（ $r=1$ ）。

经Johansen方法估计得到的协整向量（系数标准化，假设样本）：

(m-p) = 1.012\, y - 2.01\, \Delta p + 0.923\, RS - 2.576\, RL + 0.007\, t

实证结果显示实际货币需求随收入增加而增加，与通胀和利率（尤其是长期利率）负相关，基本符合货币需求理论。时间趋势项 $t$ 系数极小，说明有微弱的宏观环境长期趋势成分。

共同趋势与Stock-Watson分解

协整理论强调共同趋势。如果有 $M$ 个 $I(1)$ 变量存在 $r$ 个协整关系，则系统可拆解为 $r$ 组平稳协整关系与 $M-r$ 个非平稳共同趋势：

\begin{align*} \mathbf{y}_t & = \text{长期均衡部分} + \text{共同趋势部分} \\ & = (\beta'\mathbf{y}_t) + (\text{M-r个非平稳趋势}) \end{align*}

中国经济中的共同趋势示例

共同趋势类型	经济表现	典型变量
技术进步趋势	全要素生产率提高	GDP、制造业总产出
人口城镇化趋势	市场规模与劳动力扩张	GDP、劳动力、城市化率
货币扩张趋势	货币供应长期增长	M2、名义GDP、房价
金融深化趋势	金融市场快速发展	信贷余额、股市指数

这类分解有助于理解中国宏观经济变量长期联动与同步上升背后的动力机制。

中国消费与收入的协整实证分析

改革开放以来，中国居民消费与收入快速增长。二者是否存在稳定的长期协整关系，对于检验消费平滑假说、设计收入分配与刺激消费的宏观政策具有重要意义。

以1980-2020年年度数据为例：

步骤	检验内容	计算结果	结论
单位根检验	$\ln(\text{消费})$ 的ADF检验	$-2.15 > -2.86$	$I(1)$
单位根检验	$\ln(\text{收入})$ 的ADF检验

基于协整关系建立误差修正模型（ECM）：

\Delta \ln(\text{消费})_t = 0.023 + 0.65\, \Delta \ln(\text{收入})_t - 0.18\, (\ln(\text{消费})_{t-1} - 0.895\, \ln(\text{收入})_{t-1}) + \varepsilon_t

经济意义扩展说明

长期消费倾向： $\hat{\beta} = 0.895$ ，表明在长期内消费随收入增加而增加，但弹性略低于1，符合“永久收入假说”与储蓄倾向的现实。
短期调整特征： $0.65$ 系数低于长期弹性，说明消费增长对收入波动有一定缓冲与平滑效应。
误差修正项： $-0.18$ 为调整系数，表示偏离长期均衡时，消费变量会以每期18%的幅度回归均衡（半衰期约3.5年），说明长期均衡关系对短期动态具有重要约束。

协整向量识别的实际操作

当协整秩大于1，即存在多个协整关系时，我们只能借助统计推断获得线性空间。实际经济分析需要从中识别具体具有经济学意义的协整向量组合，这需要引入理论假设或额外参数限制。

识别方法举例扩展

识别方法	具体约束方式	适用场合
标准化约束	将某变量系数定为 $1$	选定唯一“因变量”情景
零约束	有些参数显式为 $0$	理论预期变量无影响
线性约束	始终满足特定关系	结构方程理论限制
符号约束	系数事先规定正负号	经济理论明确预期方向

货币需求系统多协整关系识别

如同一系统既含“货币需求关系”

m - p = \gamma_0 + \gamma_1 y + \gamma_2 r

又含“费雪关系”

\text{名义利率} = \text{实际利率} + \text{预期通胀}

理论限定可帮助区分和唯一化多个协整向量，为实证结果赋予经济含义。

协整分析的成功不仅取决于严密的统计方法，更需要坚实的经济理论指导。经济学解释与实证分析的结合，才保证协整分析具有生动且有用的结论。

协整检验的实际注意事项与扩展

样本量要求

协整或Johansen多变量检验法均需要较大样本量支持，以保证检验权力和结果稳定性。实际推荐：

单方程协整（如Engle-Granger回归）不少于30-50期观测
Johansen检验不少于50-100期观测
高维系统：观测期数应为变量数的 $5-10$ 倍

结构突变什么情况下影响协整关系？

经济结构变革（如制度转型、重大政策调整）及外部冲击（如危机、疫情）等，都可能导致原有协整关系失效甚至消失。协整关系的长期稳定性需与经济现实紧密结合：

制度变迁：如中国计划体制到市场体制过渡
重大政策改革：如汇率形成制度完全改造
外部重大冲击：如亚洲金融危机、全球疫情等带来的系统性变化

稳健性检验需做哪些方面？

协整结果对数据期次、模型设定、滞后阶数、结构变动等高度敏感，建议广泛开展稳健性分析，包括但不限于：

不同时段（样本分段）重复检验
更换VAR(VECM)滞后阶数的稳健性比较
多种协整检验（如Engle-Granger vs. Johansen）结果比对
显式检验结构突变（如Chow检验、结构突变模型）

误差修正模型与动态分析

unwatermarked_Gemini_Generated_Image_stljqqstljqqstlj (1)(1).png

误差修正模型（ECM, Error Correction Model）是协整理论的核心应用之一。它为经济变量的短期动态与长期均衡之间的互动提供了统一且严密的计量框架。在许多宏观实证研究中，经济变量往往本身非平稳，但它们之间却存在一定的协整（长期均衡）关系。ECM不仅能捕捉变量短期波动，还能揭示它们如何渐进修正回长期均衡。

ECM的理论基础

Granger表示定理（Granger Representation Theorem）指出：如果一组经济变量之间存在协整关系，则这些变量的动态过程必然可以表示为含有“误差修正项”的向量自回归（VAR）模型。这个误差修正项反映了变量偏离长期均衡后的调整动力，同时实现短期与长期理论的统一。

设 $y_t$ 和 $x_t$ 均为 $I(1)$ 过程，且存在协整关系。则双变量ECM可表达为：

\begin{aligned} Δ y_{t} & = α_{1} + β_{1} Δ x_{t} + λ_{1} E C T_{t - 1} + \sum_{i = 1}^{p} γ_{1 i} Δ y_{t - i} + \sum_{j = 1}^{p} δ_{1 j} Δ x_{t - j} + ε_{1 t} \\ Δ x_{t} & = α_{2} + β_{2} Δ y_{t} + λ_{2} E C T_{t - 1} + \sum_{i = 1}^{p} γ_{2 i} Δ y_{t - i} + \sum_{j = 1}^{p} δ_{2 j} Δ x_{t - j} \end{aligned}

其中 $\Delta$ 表示一阶差分， $ECT_{t-1} = y_{t-1} - \theta x_{t-1}$ 为误差修正项，衡量调整回长期均衡的速度。若为负，表明变量发生偏离后会有均衡回归的驱动力。

当涉及多个变量、多个协整关系时，通常采用Johansen极大似然方法建立VECM（向量误差修正模型）进行分析。

人民币汇率与基本面的ECM分析

人民币实际汇率的经济解释模型

人民币汇率与一系列经济基本面变量（如生产率、贸易条件、政府支出、净对外资产）之间也可以用ECM加以刻画。

协整关系表达：

q_t = f(\text{RELC}_{t},\, \text{TOT}_{t},\, \text{GOV}_{t},\, \text{NFA}_{t})

其中 $q_t$ 为实际汇率， $\text{RELC}$ 为相对生产率， $\text{TOT}$ 为贸易条件， $\text{GOV}$ 为政府支出， $\text{NFA}$ 为净对外资产。

ECM估计结果示例：

变量	长期系数	短期系数	调整系数
相对生产率	0.456**	0.123*
贸易条件	0.234**	0.089
政府支出	-0.178*	-0.045
净对外资产	0.089*	0.023
误差修正项			-0.089**

政策启示：
1. 汇率调整速度 $λ=-0.089$ ，表明实际汇率对经济基本面偏离后的回归过程较慢。
2. 相对生产率提升（Balassa-Samuelson效应）大幅推高长期均衡汇率。
3. 政府支出扩张对汇率有贬值压力，净对外资产积累导致升值。

误差修正模型（ECM）通过引入协整误差项，有力地刻画了经济变量短期波动与长期均衡的联动。它既能刻画长期约束，又能具体量化偏离后回归均衡的速度，是宏观计量分析必不可少的工具。

ECM的诊断与检验

ECM估计后必须严格开展后验诊断，以确保结果可靠：

检验类型	检验目的	方法	判断标准
残差自相关检验	检查遗漏动态	LM检验	$p$ 值 $>0.05$
残差正态性检验	检查分布假设	JB检验	$p$ 值 $>0.05$
参数稳定性检验	检查结构突变	CUSUM检验	在置信带之内
预测能力检验	检查模型效果	样本外预测	RMSE较小

检验通过说明模型设定合理，反之需要重新调整变量和滞后阶数。

在多变量ECM中，判断某变量是否“弱外生”十分关键。若 $λ_i = 0$ ，即某变量的方程中误差修正项系数为零，通常说明该变量不受长期约束调整，仅影响其他变量，为因果推断提供理论支撑。

ECM的政策分析应用拓展

货币政策传导机制分析

通过ECM分析，可以量化货币政策调整对各种宏观指标的动态影响过程：

即时效应：政策变动对相关变量（如投资、消费）的短期作用；
调整路径：偏离均衡后的逐步收敛过程；
长期均衡：最终回归的稳定状态，政策长期影响的归宿。

财政政策的动态效应

ECM框架同样可用于分析不同财政工具的效果及调整速度：

政策工具	短期财政乘数	长期财政乘数	调整时间
政府投资	0.8	1.4	2-3年
政府消费	0.6	0.9	1-2年
转移支付	0.4	0.6	1年内
减税政策	0.3	0.8	2-4年

这些结果有助于政策制定者根据目标（短期刺激还是长期增长）选择时机、工具组合。

通过误差修正模型(ECM)的引入与持续优化，我们不仅可以揭示经济变量的长期均衡联系，更能系统性分析短期“冲击—修正—稳态”的动态过程。这使得经济政策评估变得更为科学和可操作，提升了宏观经济管理的前瞻性和有效性。

总结与展望

非平稳数据分析是现代时间序列计量经济学的核心内容，为理解经济变量的长期行为和相互关系提供了强大工具。

非平稳数据分析作为现代计量经济学的重要分支，为我们理解经济变量的长期行为提供了强大工具。从单位根检验到协整分析，从误差修正模型到面板数据扩展，这些方法帮助我们更好地理解经济系统的动态特征。

在全球经济一体化和数字化转型的背景下，掌握这些方法对于政策制定者、经济研究者和金融分析师都具有重要意义。通过适当运用这些工具，我们能够更准确地理解经济关系的本质，更科学地制定政策，更有效地管理风险。

统计方法是理解经济现象的工具，而不是目的本身。成功的分析需要将严谨的统计方法与深入的经济学洞察相结合，这样才能产生既有学术价值又有实践意义的研究成果。在面对复杂的经济现象时，保持理论的清晰性和方法的严谨性，同时关注现实问题的解决，这是非平稳数据分析的根本要求。

I (1)

I(1)

I(1)

\mathrm{rank}(\Pi) = 0

-

1.89

>

-

2.86

-1.89 > -2.86

+

ε_{2 t}

\begin{aligned} \Delta y_t &= \alpha_1 + \beta_1 \Delta x_t + \lambda_1 ECT_{t-1} + \sum_{i=1}^p \gamma_{1i} \Delta y_{t-i} + \sum_{j=1}^p \delta_{1j} \Delta x_{t-j} + \varepsilon_{1t} \\\\ \Delta x_t &= \alpha_2 + \beta_2 \Delta y_t + \lambda_2 ECT_{t-1} + \sum_{i=1}^p \gamma_{2i} \Delta y_{t-i} + \sum_{j=1}^p \delta_{2j} \Delta x_{t-j} + \varepsilon_{2t} \end{aligned}

非平稳数据 | 自在学