
在现代计量经济学的发展历程中,我们见证了估计方法从最初的简单方法逐步发展为更为复杂和深入的技术。从早期依赖严格分布假设的经典回归分析和最大似然估计,到后来逐步引入更符合实际问题复杂性的灵活方法,每一次进步都推动着经济学计量工具箱的丰富与完善。
最大似然估计方法在理论上极为优美,但往往要求对数据的分布做出较为严格的假设,这在理想化模型下可以取得良好效果。然而,现实世界的数据往往充满异质性、异常值以及各种未知的结构,这让最大似然方法在实际应用中面临诸多挑战。当这些传统方法“捉襟见肘”之时,经济学家们迫切需要一种既具备灵活性,又能保证稳健性的估计思路。
正是在这样的背景下,广义矩估计(Generalized Method of Moments, GMM)方法应运而生。GMM不再局限于对分布形式的假设,而是基于样本矩与理论矩之间关系,通过一组合理的矩条件来对模型参数进行估计。它提供了一个更具包容性与适应性的框架,使我们能够面对错综复杂的数据结构,用更为稳健的方式获得我们需要的经济学结论。因此,GMM成为现代计量经济学的重要基石之一,被广泛应用于各类实证分析和政策研究场景中。
最大似然估计在理论上具有完美的性质——在正确的参数模型框架下,它是一致的、渐近正态的,并且具有渐近效率性。然而,这种理论上的完美却建立在一个关键前提之上:我们必须对数据生成过程做出可能过于严格的分布假设。
想象一下,这就像是用一把精密的手术刀进行操作——在理想的手术室环境中,它能够完成最精确的切割,但一旦环境条件发生变化,这种精密性反而可能成为负担。在经济学研究中,我们经常面临的现实是:数据的真实分布往往比我们假设的要复杂得多。
以2020年新冠疫情对全球经济的冲击为例,传统的经济模型很难准确预测疫情这种“黑天鹅”事件对消费、投资和就业的影响。如果我们仍然坚持使用基于正态分布假设的最大似然估计,很可能会得出与现实严重偏离的结论。
广义矩估计方法的出现,正是为了解决这种困境。它摆脱了对特定分布的严格假设,转而依赖更加稳健的矩条件,使得估计结果对数据生成过程的变异具有更强的抵抗力。
矩估计方法的历史可以追溯到Fisher在1925年的开创性工作。这种方法的核心思想极其直观:既然样本统计量会收敛到相应的总体参数,那么我们就可以用样本矩来估计总体矩,进而推断出感兴趣的参数。
这个想法就像是通过观察一个城市的交通流量来推断这个城市的人口规模。虽然我们不能直接数清楚每一个居民,但通过观察足够长时间的交通模式,我们可以对人口规模做出合理的推断。
在随机抽样的条件下,根据大数定律,样本矩会以概率收敛到总体矩。例如,对于独立同分布的随机样本,样本均值会收敛到总体均值,样本二阶矩会收敛到总体方差加上均值的平方。
假设我们想要估计某地区家庭收入的均值 和方差 ,并且假设收入变量 服从正态分布。此时我们可以利用矩估计的方法,通过样本矩与总体矩的关系来推导参数估计式。
首先,写出前两阶的总体矩:
根据样本观测值 ,构造相应的样本矩:
利用矩等式,将样本矩分别等于总体矩,得到两个方程:
很容易解得:
也就是说, 的矩估计量就是样本均值, 的矩估计量为样本二阶矩减去样本均值的平方。写成具体的数学表达式就是:
这种估计方法思路直观,而且在许多实际情况下非常方便。但要注意,这里的方差估计量 是有偏的,原因在于分母为 而不是 ,但它仍然是一致的——也就是说,随着样本量增加, 会渐近收敛到真实的 。
值得注意的是,这里得到的方差估计量虽然在有限样本下存在偏差,但它是一致的。也就是说,矩估计方法在大样本下能够给出正确的参数值。这是矩估计的一大优点:即使不完全依赖分布形式,也具有良好的渐近性质。
在实际应用中,我们常常遇到一些更为复杂的数据分布。以混合正态分布为例,假设每个观测值 来自两种不同正态分布中的其中一个:以概率 来自第一个分布 ,以概率 来自第二个分布 。这种模型可以描述收入的不同群体、市场细分等现象。
对于这样的混合分布,其总体均值和方差为:
请注意,最后一项 来源于不同成分之间均值的差异,这项“交叉方差”展示了混合分布的独特复杂性:整体的变异不仅取决于成分各自的波动,也取决于成分均值之间的距离。可以类比于社会收入不平等既有群体内部的不均,也有群体之间的差距。
如果我们尝试直接用样本矩估计上述参数,发现方程结构高度非线性——尤其当 、、、、 都未知时,利用样本一阶、二阶、三阶、甚至更高阶矩所建立的方程会非常复杂,常常导致无解析解,需要数值方法或迭代算法来求解。
实际操作时,如果只通过前两阶矩进行估计,可能存在多解、不收敛,或者解完全失真的问题。因此需要进一步拓展思路。
针对这种高复杂度的分布,Quandt和Ramsey(1978)提出了更为灵活的矩生成函数(Moment Generating Function, MGF)方法。该方法不仅仅局限于一阶、二阶等有限阶的矩,而是利用整个分布的信息。其具体做法如下:
选择若干不同的 值,对应地构造如下样本统计量:
将其与理论上的矩生成函数
进行匹配,从而建立更加丰富、灵活的方程组以估计参数。
比如对于正态分布,,但对于混合正态分布,MGF 公式就更加复杂。通过选择多个 (例如 ),可以形成多个方程联合求解一组参数。这种方法能够利用原始分布的全局特征信息,为高维和复杂情形下的参数估计提供更强大的工具。
实际上,当遇到传统矩方法解不出来、多解或不稳定时,MGF 方法往往能够在数值上实现更好的估计,尤其在金融工程、保险精算等行业有广泛应用。
对于复杂分布如混合正态分布,经典矩估计通常不够用或者方程复杂;此时,利用矩生成函数扩展矩估计法,可以获得更有效且稳定的估计结果。

在实际应用中,矩估计并非总是效率低下的。事实上,当数据来自于指数族分布时,矩估计方法可以实现非常高的效率,甚至达到最大似然估计(MLE)的渐近效率。指数族分布家族在统计建模中非常重要,它们的对数似然函数拥有十分优美的结构:
其中, 称为充分统计量(Sufficient Statistic),它们在参数估计中起着核心作用。
当充分统计量存在并且我们以此为基础构造矩估计时,所得的矩估计量与最大似然估计量完全一致,因此具有和MLE一样的渐近效率性。这很好地解释了为什么在正态分布这样的指数族分布下,矩估计表现非常优越。
指数族分布包括常见的正态分布、二项分布、泊松分布、伽马分布、指数分布等。它们的一个共同特点是存在一组充分统计量,使得使用这些统计量进行估计时能高效利用数据的信息。
让我们具体看看伽马分布这个典型的指数族分布,其密度函数为:
其对数似然函数显然具有指数族分布的标准形式,且两个充分统计量分别为 和 。
在社会经济数据分析(如收入分布等)中,选择不同的矩组合(比如均值、二阶矩、倒数矩、对数均值等)会导致不同的参数估计结果。此时,最佳的做法往往是直接采用基于充分统计量的矩对组合,因为它能保证渐近效率。统计理论建议优先选用充分统计量而非其他时刻或变换。
从表格可以发现,与充分统计量对应的矩组合(最后一行)给出了最接近真实参数的估计,这与最大似然估计理论完全一致。
进一步,矩估计(尤其在指数族)具有很好的收敛性。下面这个图示展示了不同样本量下,基于充分统计量的矩估计如何逐渐收敛到真实的参数值:
由此可见,在指数族分布下,正确选择边际矩条件(基于充分统计量)至关重要。
矩估计量的优势,在大样本理论下表现得尤为突出。只要一定的正则性条件成立,矩估计量具有三大核心渐近性质:
一致性(Consistency):随着样本量,估计量会以概率趋于真实参数,即
这保证了我们利用矩估计得到的结果不是偶然有效,而是有理论保证的。
渐近正态性(Asymptotic Normality):在大样本下,矩估计量服从中心极限定理的约束,其分布近似于正态分布:
这为我们后续的置信区间构造和假设检验提供了理论基础。
渐近效率性(Asymptotic Efficiency):对于指数族分布和其他特定情形,矩估计量可以达到Cramér-Rao下界,即具有最小可能的渐近方差,效率不逊于MLE。
在实际应用中,为了进行推断和假设检验,我们还需要得到参数估计量的协方差矩阵。一般情况下,矩估计的渐近协方差可以表示为:
其中:
这个公式虽然看起来较为复杂,但本质上反映了这样一个思想:估计精度不仅取决于矩函数对参数的“敏感度”(),还受到样本数据本身波动性的影响()。
矩估计方法的一大魅力在于其极强的适用性和稳健性——只要可以建立合理的矩条件,对分布类型几乎没有限制,我们就能获得一致的估计结果。这使得矩估计在现代计量经济学研究中占有举足轻重的地位。
在前面的讨论中,我们主要考虑的是“恰好识别”的情况——有 个参数需要估计,我们就使用 个矩条件。但现实中经常出现这样的情况:我们拥有的信息比严格需要的更多。这就像是用多把钥匙去开同一把锁,每把钥匙都声称能够打开这把锁,但它们给出的“开锁方式”却略有不同。
这种情况在经济学研究中屡见不鲜。例如,在分析房地产市场时,我们可能有多个指标都能反映市场的供需状况:房价收入比、租售比、空置率等。每个指标都能给我们一些关于市场均衡的信息,但它们之间可能存在细微的差异。
让我们通过 Passmore(2005)对美国房地产金融机构范尼美(Fannie Mae)的研究来理解这个问题。在这项研究中,研究者获得了同一个参数 的四个独立估计值,每个估计值都有其相应的渐近方差。
面对这四个不同的估计结果,我们该相信哪一个?或者更准确地说,我们应该如何综合利用这些信息?
最小距离估计给出了一个优雅的解决方案:使用加权平均,权重与估计精度成正比。具体的准则函数为:
这个公式的直觉很清楚:我们希望最终的估计值 与各个单独估计值 的距离尽可能小,但对于那些方差较大(即不太可靠)的估计值,我们给予较小的权重。
例如,动态面板数据模型的估计。在 Arellano-Bond 估计中,我们对同一个参数向量 有 个不同的工具变量估计量。这些估计量分别基于不同时期的可用信息,因此具有不同的精度。
最小距离方法将这些估计量组合成一个统一的估计:
其中 是反映第 期估计精度的权重矩阵。
最小距离估计器(MDE)可以一般性地定义如下:设样本统计量表示基于 个观测值,满足:
其中 是包含 个参数的向量。我们定义准则函数:
其中 是正定的权重矩阵。最小距离估计量就是使 最小化的参数值。
不同的权重矩阵 会产生不同的估计量,但所有这些估计量都具有一致性。这就提出了一个重要问题:是否存在“最优”的权重矩阵?
答案是肯定的。理论告诉我们,最优的权重矩阵是:
使用这个最优权重矩阵,最小距离估计量的渐近方差为:
其中 是矩函数对参数的偏导数矩阵。
最优权重矩阵的选择遵循了广义最小二乘的逻辑:给予那些方差较小的矩条件更大的权重,给予相关性较高的矩条件适当的调整。这确保了我们能够最有效地利用所有可用信息。
让我们通过 Carey(1997)对医院成本的研究来看一个更复杂的例子。在这项研究中,使用似乎无关回归(SUR)方法对面板数据模型进行估计,产生了五个特定时期的参数向量估计。
有些参数在各年间是共同的,有些则允许随时间变化。这导致了一个复杂的约束结构:50 个估计参数需要满足 30 个约束条件,最终确定 20 个基本参数。
最小距离方法通过构造一个 的权重矩阵来处理这种复杂的约束结构,其中每个块反映了不同时期估计量之间的相关性。
在实际应用中,最小距离估计通常需要两个步骤:
获得参数的一致估计。这可以通过使用 (单位矩阵)作为权重矩阵来实现,得到一个虽然不是最优但一致的估计量。
使用第一步的估计结果来构造最优权重矩阵 ,然后重新进行最小距离估计。
这种两步程序确保了我们既能获得一致的估计,又能达到渐近效率。
最小距离估计的核心智慧在于:当面对多个相互冲突的信息源时,不要简单地选择其中一个或平均对待,而应该根据每个信息源的可靠性给予相应的权重。这种思想在现代大数据分析中具有重要的指导意义。

广义矩估计(GMM)在现代计量经济学中占据着举足轻重的地位,特别是在宏观经济学和金融学的实证研究中。令人惊讶的是,GMM实际上是一个极其宽泛的框架,它几乎涵盖了我们在计量经济学中遇到的所有熟悉的估计方法。
这就像是发现了一个统一的物理理论,能够解释从牛顿力学到量子力学的各种现象。GMM提供了这样一个统一的视角,让我们能够在同一个理论框架下理解最小二乘、工具变量、最大似然等看似不同的估计方法。
让我们从最基本的线性回归模型开始理解GMM的核心思想。在经典的最小二乘估计中,一个关键假设是:
这个条件的样本对应形式是:
满足这个矩方程的 就是最小二乘估计量。换句话说,最小二乘估计量本身就是一个矩估计量!
当我们转向工具变量估计时,GMM框架的威力开始显现。工具变量方法基于这样的矩条件:
其中 是工具变量向量。当工具变量的数量 大于参数数量 时,我们就面临了过度识别的问题。
传统的处理方法是通过两阶段最小二乘(2SLS)来解决:首先将内生变量投影到工具变量空间,然后使用投影后的变量进行回归。但GMM提供了一个更直接的方法:直接最小化矩条件的加权二次型。
GMM框架的优势在非线性模型中更加明显。对于非线性回归模型:
总体正交条件为 ,其中 是伪回归元(pseudoregressors)。相应的经验矩方程为:
这正是非线性最小二乘的正规方程!
更令人惊讶的是,即使是最大似然估计也可以纳入GMM框架。最大似然估计通过使对数似然函数的导数等于零来获得估计量:
在正则条件下,我们有:
这又是一个矩条件!因此,最大似然估计量也是GMM估计量的一个特例。
现在我们可以给出GMM的一般定义。假设我们有 个参数 需要估计,同时理论提供了 个矩条件:
相应的样本矩为:
当 时,我们无法精确解出矩方程,需要使用某种准则来选择“最佳”的参数估计。GMM的准则函数是:
其中 是正定的权重矩阵。
权重矩阵 的选择体现了深刻的经济学直觉。就像投资组合理论中我们会根据资产的风险-收益特征来分配权重一样,在GMM中我们根据不同矩条件的信息含量和可靠性来分配权重。
最优权重矩阵 的选择遵循这样的原理:
理论告诉我们,最优权重矩阵是:
让我们通过一个具体的例子来理解GMM在中国经济研究中的应用。考虑分析中国家庭的消费行为,我们可能面临以下挑战:
内生性问题:收入与消费之间存在双向因果关系
异质性问题:不同地区、不同收入水平家庭的消费模式差异很大
数据限制:部分重要变量难以直接观测
GMM方法可以通过以下方式解决这些问题:
在实际应用中,GMM估计通常采用两步程序:
这种程序的经济学直觉是:我们首先用“粗糙”的方法获得参数的大致位置,然后用更精密的工具进行“精确定位”。
GMM方法的真正价值在于它提供了一个统一的理论框架,使我们能够在同一个体系下理解和比较不同的估计方法。更重要的是,它为我们提供了处理复杂现实问题的灵活工具,特别是在面对内生性、异质性和分布不确定性等挑战时。
让我们从GMM最著名的应用之一——Hall(1978)的永久收入消费模型开始。这个模型展示了GMM如何将经济理论转化为可检验的实证模型。
Hall的模型考察消费者在整个生命周期中最大化期望效用,受到跨期预算约束。经过推导,模型的核心可归结为一个简单的欧拉方程:
这个方程的经济学含义是:在最优消费路径上,今天多消费一单位带来的边际效用损失,应当等于明天少消费相应数量的贴现边际效用损失。
理论模型虽然优美,但要实证检验,需要对效用函数进一步假设。Hall采用了常相对风险规避(CRRA)型效用:
将该效用函数代入欧拉方程并重新参数化后,得到:
其中 是消费增长率, 为风险规避参数。
这个条件的巧妙在于,把复杂的跨期优化理论转化为简单的矩条件。理性消费者意味着:在期的信息集下,上式的条件期望应为零。
在Hall的原始模型中,参数和需要估计。如果假定信息集只包含消费水平,则有两个矩条件可准确识别这两个参数。
但模型的真正亮点在于它的可检验性。Hall的“推论1”指出:“除了消费水平之外,时期可以观察到的任何其他信息都不能帮助预测未来消费。”
这一推论带来了过度识别的机会:若用工具变量集包含滞后收入或财富变量,模型便过度识别,就可以利用过度识别检验理论的有效性。
再看一个GMM用于非线性模型的例子。以德国社会经济面板数据(GSOEP)考察收入决定因素的非线性回归:
该指数模型确保收入预测值总为正,符合理论预期。
在GMM下有两种建模方案:
方案1:非线性最小二乘
用伪回归元 作为工具,其中
方案2:扩展的GMM
可加入如健康满意度、婚姻状态等变量(虽未直接进入方程),用作额外工具变量。
方案2的优势在于提供了更多矩条件(6个而不是4个),或可提高效率,并可检验设定的正确性。
可以发现,额外的工具变量并未显著提升精度,这说明教育变量的内生性可能不严重,或额外工具信息量有限。
GMM在动态面板数据模型中的应用尤为重要。以Dahlberg和Johansson(2000)对瑞典地方政府支出为例:
模型设定:
其中、、分别为支出、收入和中央转移支付。
估计挑战:
GMM解决:
利用工具变量的正交条件:
关键思想是:变量的滞后水平值与差分误差正交,可作有效工具。
在瑞典地方政府支出研究中,GMM准则函数值为重要诊断信息:
这表明:
过度识别检验的拒绝并非一定意味着模型全错,也可能反映工具变量弱相关、结构断点或其他设定问题。实际应用时,应结合经济理论和其他诊断共同判断。
GMM另一大优点在于对异方差的稳健性。传统2SLS假定误差同方差,现实中这一假设常被违背。
GMM通过异方差一致的协方差估计得到稳健结果:
这就是White异方差稳健标准误在GMM中的版本。
若需联合估计多个相关方程,GMM同样适用。例如有个方程组成的系统:
若方程间误差项相关,可通过GMM提升效率:
其中为第与方程误差项协方差矩阵。
经济学直觉是:不仅利用各方程内部信息,还利用方程间相关性,实现整体效率提升。
GMM的实际应用展示了其高度灵活性:无论是简单消费函数,还是复杂的动态面板与多方程系统,GMM都能带来一致且高效的估计,更为经济理论的实证检验提供了有力工具。
在GMM(广义矩方法)框架下,统计推断有三项核心支柱:Wald检验、拉格朗日乘数检验(LM检验)和“似然比”检验(LR检验)。它们分别对应于传统的参数有效性、约束可行性和模型整体配适度检验。在GMM语境中,这三类检验由于GMM的非似然本质而有了特殊的数学表达与经济直觉,构成了GMM理论体系的基础。
这三大检验方式共同构成了GMM下对理论有效性、参数约束和工具变量适宜性的严密检验体系。
当我们的矩条件数超过参数个数时(即,系统“过度识别”,在实际应用中极为常见),GMM天然会产生一个“剩余误差”用于检验理论或工具变量是否成立。
此时的典型检验为过度识别约束检验,其统计量形式为:
其中, 为以估计值计算的矩均值向量,为一致的权重矩阵。
在原假设(模型和工具变量均正确)下,J统计量在大样本近似服从自由度为的卡方分布:
J检验的经济学含义非常重要:如果理论无误且工具外生,则所有矩条件在总体均应为零。拒绝原假设通常表明:
因此J统计量成为GMM估计体系内核级的有效性检验工具。
对于参数约束(如)的检验,GMM版本的Wald统计量形式如下:
其中为无约束GMM估计下的约束值,为其渐近协方差。该统计量在原假设下渐近服从分布,自由度等于约束数。
Wald检验的特点是只要求无约束GMM估计,计算快捷,适合检验线性或非线性参数组合,如“”或“”等假设。
直观上,它衡量当前估计值偏离约束面的距离,距离越大,原假设被拒绝概率越高。
GMM本身虽然不是基于完全的最大似然,但仍可通过准则函数值的变化定义类似似然比的统计量。具体做法为:
其中和分别是加约束(restricted)与无约束(unrestricted)GMM估计时的目标函数值(即残差二次型或准则函数值)。注意:两次估计中须采用同一权重矩阵,这与经典LR检验“嵌套模型”的一致性要求相似。
在原假设下,同样近似服从分布,其自由度为约束的数量。
GMM-LR检验常用于检验非线性联立约束的有效性,如“”等关系。
这三大检验共同为GMM提供了理论检验、模型设定与工具变量外生性诊断等坚实支柱,也是实证经济学者常用的整数分析武器。
GMM方法的出现不仅仅是一个技术进步,更是计量经济学思想的一次重要转变。它将我们从对特定分布假设的依赖中解放出来,转向更加关注经济理论所蕴含的矩条件。这种转变的意义是深远的:
理论与实证的更紧密结合:GMM要求我们从经济理论出发,明确地陈述模型的识别假设,这促进了理论模型与实证分析的有机结合。
稳健性的重视:GMM强调估计方法对分布假设的稳健性,这一思想已经深深影响了现代计量经济学的发展方向。
统一框架的价值:GMM提供的统一框架使我们能够在同一个理论体系下理解和比较不同的估计方法,这种统一性具有重要的教学和研究价值。
GMM方法的发展历程告诉我们,优秀的计量经济学方法不仅要有坚实的数学基础,更要能够服务于经济学研究的根本目标——理解和解释经济现象。在这个意义上,GMM的成功不仅在于它的技术优越性,更在于它为经济学家提供了一个强有力的工具来检验理论、评估政策和理解现实。
随着中国经济的快速发展和数据可得性的不断提高,GMM方法在中国经济学研究中的应用前景广阔。我们有理由相信,在新一代经济学家的努力下,GMM方法将为理解中国经济的独特规律和推动中国经济学理论的发展做出重要贡献。
GMM方法的真正价值不在于它的技术复杂性,而在于它为经济学研究提供了一个灵活而强大的框架,使我们能够更好地连接理论与现实,更深入地理解经济现象的本质。在掌握这一方法的同时,我们更应该培养严谨的学术态度和敏锐的经济学直觉。
| 2.057 |
| 0.0658 |
| 基于均值和二阶矩 |
| 2.772 | 0.0886 | 基于均值和倒数矩 |
| 2.411 | 0.0771 | 基于充分统计量(最优) |