
在现代经济学研究中,研究者面临着多种估计方法的选择,这些方法既丰富又复杂。我们既可以依赖于带有严格前提假设的参数化方法,也可以采用灵活的半参数与非参数技术。每一种方法之所以被创造和应用,都是为了在特定情境下最大程度地挖掘数据的信息,并减少推断中的偏误与局限。例如,参数化方法便于解释和推导、计算效率高,非常适用于数据结构明晰、理论模型明确的情形;而非参数化方法则在假设条件较弱或模型未知时具有优势,可以让我们以较小的先验信息探索潜在关系。
在实际应用中,经济学家常常像工匠一样,根据具体的研究问题与数据特性,从估计方法的“工具箱”中挑选最合适的“工具”——无论是精密的MLE、灵活的GMM,还是具有高度鲁棒性的核密度估计等,每一种方法都能从独特的视角帮助我们理解经济现象的本质与变迁。正如一个装满多样仪器的工具箱,这些方法丰富了经济学的分析手段,使我们能够更全面地揭示经济运行的机理。
计量经济学估计方法的核心矛盾在于假设的强度与结论的可靠性之间的权衡。强假设能够带来精确的结论,但也增加了模型错误设定的风险;弱假设虽然稳健,但往往只能得出有限的结论。
这种权衡在现实研究中随处可见。比如,在分析新冠疫情对经济的影响时:
强假设方法:假设疫情冲击服从特定的概率分布,能够精确预测各行业的损失程度,但如果分布假设错误,预测就会严重偏离现实。
弱假设方法:不对疫情冲击的分布做具体假设,只分析其与经济变量的关联性,结论更稳健但精确度有限。
现代计量经济学的发展趋势是:在可能的情况下,倾向于使用较少不合理假设的方法,这解释了广义矩估计(GMM)等半参数方法的兴起。
现代计量经济学的估计方法可以大致分为三大类:
参数化估计的代表是最大似然估计(MLE),它基于一个优雅的思想:给定观测数据,我们应该选择使这些数据出现概率最大的参数值作为估计值。
这个想法的直觉很简单。假设我们要估计某个城市的平均房价。如果我们观察到的样本房价都在50万元左右,那么平均房价为50万元比平均房价为20万元或100万元都更“合理”,因为前者使观测数据出现的可能性更大。
在经典的线性回归模型中,如果我们假设误差项服从正态分布,那么最大似然估计就等价于最小二乘估计。这不是巧合,而是正态分布特殊性质的体现。
似然函数的构成:
并非所有经济现象都适合用正态分布来描述。随机前沿模型就是一个典型例子,它用来分析企业的生产效率。
在这个模型中,企业的实际产出总是小于或等于其理论最大产出,因此误差项具有非对称的分布特征。这种情况下,普通最小二乘估计就不再是最优的,需要使用专门的最大似然方法。
在分析多个相关变量时,传统的多元正态分布假设往往过于严格。Copula函数提供了一种更灵活的方法来建模变量间的相关性。
以实际场景为例:
Copula函数允许我们分别建模每个变量的边际分布,同时单独刻画变量间的依赖结构,从而在风险管理、保险定价等领域获得更高的建模灵活性和准确性。
Copula方法的优势在于:它将复杂的多元分布问题分解为相对简单的边际分布问题和相关性建模问题,大大提高了建模的灵活性。
半参数估计的代表是广义矩估计(GMM),它不需要完全指定数据的分布,而是基于一些矩条件来进行估计。
GMM的核心思想是:如果我们知道某些总体矩等于零(比如解释变量与误差项的协方差为零),那么我们可以寻找使样本对应矩尽可能接近零的参数估计值。
在分析货币政策传导机制时,GMM能够在不假设具体传导路径的情况下,识别政策工具对经济变量的因果影响。
当数据中存在异常值时,普通最小二乘估计(OLS)往往会“被异常值带偏”,即因为OLS最小化的是残差的平方和,几个极端值就可能对回归系数产生较大影响。这在金融数据、医学观测等高发异常值的场景下尤为突出。
最小绝对偏差(LAD)估计(有时也称为中位数回归)则以最小化绝对残差之和为目标函数,因而对单个极端观测值的依赖大大减弱。即使样本中存在异常值,LAD回归拟合的直线仍能保持对大多数样本的良好描述,因此是一种更为稳健(robust)的回归方法,被广泛应用于对异常值敏感或噪声较多的数据分析场景。
LAD vs OLS的对比:
例如,在工资收入数据中,极高工资的极少数样本会显著扭曲OLS的拟合结果,但LAD回归能有效抑制超高收入的影响,更真实地反映普遍工薪阶层的变化趋势。
传统的回归分析(如OLS)主要关注解释变量对因变量条件均值的影响,但现实中我们通常关心分布的更多细节。例如,在有明显异质性或极端值影响的场景下,均值并不能全面反映变量之间的关系。**分位数回归(Quantile Regression)为我们提供了一种工具,能够衡量解释变量对因变量不同分位数(如中位数、上四分位数、下十分位数等)**的影响,从而揭示变量关系的分布异质性。
核心思想:
以收入不平等研究为例:
分位数回归在医学、金融领域同样常见。例如,在药物疗效评估、资产回报分析中,研究者有时希望分别探索疗效好的、差的、极端个体的影响因素,将分位数回归作为主要分析方法。现代统计软件(如R、Python的statsmodels库)均支持分位数回归的灵活建模与结果可视化。

非参数估计强调在尽量少做分布假设的前提下,利用观测数据本身来“说话”。其主要优势在于灵活性强,能适用于各类未知或复杂分布的数据情形。核密度估计(Kernel Density Estimation, KDE) 是非参数估计中最具代表性的方法之一,也是现代统计分析中用以描述数据概率密度的“标配”工具。
与传统直方图相比,核密度估计拥有以下优势:
在实际应用中,例如收入分布、年龄分布、资产收益率分布等,核密度估计常被用于可视化和定量分析。
核函数的选择
核密度估计的基本思想是:对每一个数据点,以该点为中心绘制一个“核函数”,再对所有核函数求和、归一化,得到总体密度的估计。这些核函数是定义在局部的小波函数。常见核函数及其特点如下:
实际上,核函数的选择对结果影响不大,更重要的是带宽参数。但了解各种核的性质,可以根据实际场景做一定调整。
核密度估计的灵魂在于带宽(bandwidth),也叫窗口宽度。带宽决定了每个核函数影响范围的大小,直接影响到估计曲线的平滑程度:
选择合适的带宽,是确保核密度估计质量的关键。实际中,不同带宽的效果如下图所示:
带宽选择的常用方法有:规则化选择(“规则bandwidth”),如Silverman经验法则、交叉验证(Cross-validation)、最小均方误差准则(Least Squares Cross-Validation, LSCV)等。实际分析中,可以尝试多种带宽,结合数据特征与可解释性选取最佳结果。
非参数和参数之间,存在一类“半参数模型”,即部分参数化、部分非参数。它灵活兼顾可解释性和鲁棒性,在现实经济、金融乃至社会科学中都有广泛应用。
以二元选择模型(如就业/失业、是否购房等0-1结果变量)为例,经典的Probit或Logit模型需假定误差项服从正态或logistic分布。现实中,这类假设常常难以严格成立,可能导致模型偏误。
Klein-Spady(1993)半参数二元选择方法,正是通过引入核密度估计,对条件分布函数进行非参数估计,从而免去了对误差分布的强假设。方法流程包括:
这种半参数估计已被广泛用于劳动力市场、消费决策、信贷违约等领域。
小结:
非参数和半参数估计方法极大地拓展了传统统计建模的能力,使我们能够在数据结构复杂、分布未知的条件下,依然获得有意义、可靠的结论。随着数据规模增大、计算力提升,这些方法将在越来越多的实证研究与实际应用中扮演核心角色。
统计推断涉及多种估计方法,不同方法在理论和实际表现上各有侧重。理解其主要性质、优势及局限,对于选择合适的方法至关重要。我们一般从一致性、渐近正态性和效率三个维度来比较估计方法。
一致性是评估估计方法首要且最核心的标准。一个估计量是一致的,意味着随着样本量的不断增大,它会以概率趋近(收敛)于真实参数值。只有一致的估计方法,随着数据量丰富,所得结论才能日益接近客观事实。
在中国的实证研究中,一致性尤其被重视。例如,分析改革开放40余年经济增长因素时,我们往往面临较长的时间序列或较大样本,必须确保所用方法在大样本条件下依然能可靠“还原”真实现象。因此,无论参数化、非参数还是半参数估计,理论上都需严格证明其一致性。
渐近正态性是指:当样本量趋于无穷大时,经过适当标准化的估计量,其分布会近似于正态分布。大多数统计推断(如置信区间、假设检验等)之所以成立,正是依赖于渐近正态性。
例如,t检验、F检验等工具背后的理论出发点正是估计量可以被正态分布近似。即便面对复杂(或未知)数据分布,只要估计方法具有渐近正态性,就能借助现成的推断工具开展实证分析。
渐近正态性的现实意义包括:
实际工作中,判断某估计量是否渐近正态,对应要考查其目标函数/估计方程的平滑性,以及是否满足中心极限定理要求。对于某些非参数估计或鲁棒估计,还需特殊技术处理(如自助法等)才能获得相应的渐近正态结果。
在所有一致且渐近正态的估计方法中,我们更偏好效率高者。效率衡量的是估计量的方差:在给定样本量下,方差越小,表示利用信息越充分、结论越精确。
例如,最大似然估计(MLE)在假设模型正确时,通常具有“渐近最优性”:其误差(通常用均方误差MSE衡量)最小。最小二乘(OLS)、最小绝对偏差(LAD)、GMM和非参数核法等,在数据特性和模型设定不同情况下,效率表现各异。
实际应用中,效率与模型假设紧密相关。若分布假设不成立(如误把厚尾分布当作正态),最大似然估计的方差会大幅上升,模型表现反不如鲁棒的LAD等方法。因此在模型设定和样本性质不明确时,高效率和高鲁棒性往往需权衡。
事实上,多数主流估计方法都可以纳入M估计量(Extremum Estimator) 理论框架。M估计量本质上是通过极大化(或极小化)某个目标函数而得到的参数估计。这个“目标函数”可以非常通用,既可能是误差平方和,也可能是对数似然、绝对误差、矩条件甚至更复杂的数据拟合度量。
三种重要的M估计量举例:
此外,如LAD(最小绝对偏差)、稳健回归、分位数回归等都属于广义M估计,展现了极值估计体系的广阔包容性。
在合适的正则条件下,所有M估计方法都具备大样本(一致性与渐近正态性)理论:
只要上述(或更宽松的)条件成立,极值估计量能保证随着数据增多收敛于真实值。实际中,可以针对不同的数据类型和目标函数,补充样本依赖结构、异方差、缺失数据等复杂性讨论。
统一的渐近正态性理论
只要目标函数二阶可微,且极值点足够“平滑”,M估计量经标准化后都服从正态分布。这解释了为何许多看似差异极大的方法,都可方便地估算标准误差、实施假设检验。
M估计量理论的价值,在于用“极值”这一极具包容力的数学思想,将最小二乘、最大似然、GMM等方法统一到一个大框架中。这样我们可以用相似的推导和检验工具,去分析和理解它们在一致性、正态性、效率等方面的具体表现。
参数化估计的基础在于合理地构建似然函数。这个过程不仅考验经济学与统计学的理论素养,还需紧密结合实际问题场景去提炼模型假设和结构。
在具体构建似然函数时,我们通常需要系统地思考和回答以下关键问题:
以金融市场中股票收益率数据为例:传统正态分布假设难以反映金融数据的“厚尾”特性和波动率聚集现象。研究者往往会选用t分布(能反映厚尾)、广义误差分布(可调整尾部形状)甚至混合分布或GARCH模型来更精确地描述现实,从而提升估计的鲁棒性与准确度。
更进一步,在实际应用中还可能涉及参数动态变化,对数似然的正则化(如Lasso/岭回归)或联合建模,将多层次随机效应等复杂结构纳入似然函数。这些技巧极大拓展了参数化估计的适用范围与深度。
贝叶斯估计作为参数化统计推断的重要分支,近年来因其独特优点与强大计算工具(如MCMC、变分推断等)而再次获得广泛关注。
贝叶斯思路的核心在于把所有未知参数都视为随机变量,通过先验信息和样本信息的结合动态调整我们的信念。对比经典的极大似然估计,贝叶斯方法可以显式地处理先验知识、参数不确定性与复杂模型结构。
贝叶斯方法的突出优势包括:
实际应用实例:
在参数化方法中,模型的合理性与假设前提至关重要。参数化建模的强假设既是估计效率的保障,也是结果可靠性的风险点。因此,我们必须系统地进行模型优选和假设检验。
常用的模型选择与假设检验方法:
除此之外,实际中还经常结合信息准则(如AIC、BIC)、交叉验证等方法评判模型优劣,避免过度拟合和模型复杂度失控。
举例说明:
总的来说,参数化估计的实践不仅在于精准建模,更在于严谨验证,确保每个决策和推断都建立在坚实的理论与事实基础之上。

广义矩估计(GMM)在现代经济学和金融研究中发挥着至关重要的作用,既能灵活应对数据分布的不确定性,又为处理内生性和工具变量等问题提供了强大手段。GMM并不仅限于经典的线性或简单模型,它还广泛应用于动态面板数据、资产定价、结构化宏观模型等诸多复杂情境。
以教育投资收益率为例,传统的OLS估计可能因能力偏误(即忽略了个体能力与教育的内生相关性)而高估教育回报。而GMM框架下,选用理想的工具变量(如地区教育政策变化、历史事件冲击等)可以矫正这一偏误,获得更接近因果的估计结果。GMM的强大还在于:哪怕工具变量数量大于内生解释变量(过度识别),也能借助过度识别检验(如J检验)对工具变量有效性进行评估,这是其他方法难以企及的优势。
GMM的典型估计步骤包括:
GMM方法兼容性极强,无论结构参数、协整关系还是动态调整模型,都可以纳入半参数框架统一处理。
经验似然(Empirical Likelihood, EL)提供了一种兼具灵活性和“似然理论美感”的半参数估计思路。EL方法保持了似然函数的优良性质(如Wilks定理下的似然比检验),而无需对数据分布做严格假设,这尤其适合高维、异质性强的经济数据。
针对每个观测,分配一个概率/权重,使得所有权重相加为一,并满足预先设定的矩条件(如各项约束等式为零)。最大化经验似然函数下,不仅参数点估计具有良好性质,还能构造精确的置信区间和似然比检验。
实际运用拓展:
经验似然兼顾非参数方法的稳健性和参数化方法的效率,是现代统计推断和计量经济的重要工具。
分位数回归(Quantile Regression)不仅丰富了传统平均值回归的分析视角,更重要的是它能够揭示处理效应或政策冲击在不同人群中的“分布异质性”:即政策对于底层、顶部和中位数群体的影响有何不同。
仍以最低工资政策为例——分位数回归显示,最低工资提升对最底层收入群体的收入有显著正向提升,而对高收入群体则可能呈现微弱甚至负面效应。传统OLS只能给出“平均”效应,无法刻画上述差异。这一工具极大提升了政策分析和精准施策的科学性。
此外,分位数回归可自然处理异常值的影响,并支持引入复杂的工具变量与半参数约束。它已广泛应用于劳动力市场、不平等研究、收入分布动态等多个领域。
半参数估计的核心思想是放松分布假设,但保留模型的基本结构。这种方法在现代经济学研究中越来越重要,特别是在处理复杂的现实问题时。
矩估计方法基于一个简单而强大的原理:如果我们知道总体的某些矩特征(如均值、方差或协方差),那么可以通过样本矩来估计未知参数。
例如,在分析中国股票市场的风险特征时,我们可能不确定收益率的具体分布,但可以确信某些矩条件(如收益率与某些宏观变量的正交性)应该成立。
半参数方法在处理内生性问题方面具有独特优势。当解释变量与误差项相关时,传统的最小二乘估计会产生偏误。
以分析教育对收入影响为例:
内生性来源:能力高的人既更容易接受教育,也更容易获得高收入
工具变量:义务教育法的变化、学校建设政策等外生冲击
识别策略:利用政策变化的外生性来识别教育的真实效应
当数据中存在异常值时,最小绝对偏差(LAD)估计展现出比最小二乘更好的稳健性。这在金融数据分析中特别重要。
2008年金融危机的启示:在分析银行风险时,少数银行的极端损失可能会严重扭曲基于最小二乘的风险模型。LAD估计能够更好地捕捉大多数银行的典型风险特征。
部分线性模型(Partially Linear Model, PLM)是一类将参数方法与非参数方法有机结合的灵活建模工具,兼具解释性与适应性。其基本形式为:
其中, 表示自变量 对因变量 的线性影响(参数部分), 是未知的光滑函数,捕捉了 对 的非线性作用(非参数部分), 为误差项。
这种模型结构在环境经济学、劳动经济学等领域尤为常见与实用。例如,在分析经济发展对环境质量的影响时,可以采用部分线性模型:
此外,部分线性模型还可以推广为更一般的部分非参数模型,例如部分线性部分指数模型等,进一步增强对非线性和异质性的刻画能力。在实际估计时,常采用核回归、样条或者局部多项式等非参数方法来估算 ,而参数部分可以通过半参数GMM等方法高效求解。
部分线性模型的最大优点在于:既不完全依赖分布假定,又可对部分变量进行结构化经济解释,兼具理论严谨与现实适应性。在金融、医疗、教育等多种实证研究中均展现了独特优势。
非参数估计方法强调尽可能减少对数据分布的结构性假设,通过数据自身揭示潜在关系与分布特征。相较参数化和半参数化方法,非参数方法为复杂经济现象的探索性分析提供了极大灵活性,尤其适用于"黑箱"式规律挖掘与复杂分布形状刻画。
核密度估计要取得较好效果,关键在于核函数的恰当选择。核函数(Kernel Function)不同,决定了估计曲线的平滑度、边界行为以及理论属性。
常用核函数及其数学表达:
正态核(Gaussian Kernel)
一般而言,正态核由于其数学便利性和良好的数值性质被广泛使用,但Epanechnikov核在理论误差最小方面具有优势。均匀核简单明了,便于理解。
核密度估计的另一个核心难题是在于带宽(bandwidth, )的选择。带宽直接决定光滑程度,是非参数估计中的"调谐参数"。选择过小的会造成估计曲线抖动(欠平滑,high variance),而过大则导致过度平滑(high bias),实际分布特征可能被掩盖。
非参数核密度估计的基本公式为:
带宽选择的常见准则:
在实际应用中,往往将几种方法结合,并参考专业经验判定最佳带宽。
非参数方法固然具备模型假设最少、对分布稳健等优点,但也存在不可避免的局限:
非参数方法虽然对分布形式假设非常稳健,但切记:它们依然高度依赖其他基础性假设(如观测的独立性假设、同分布假设等)。一旦这些被忽视,估计结果也可能严重偏差甚至完全错误。因此在使用非参数方法时,必须对数据结构和相关假定保持高度警惕。

在经济学计量实证分析中,方法选择往往决定了研究结果的有效性和说服力。由于不同理论假设及现实问题的复杂性,各类方法各有所长,实践中需结合实际灵活应用。
不同的研究目标对应着不同的估计策略。在应用时,明确研究问题和数据特征,是科学选择方法的关键第一步。例如:
在具体应用中,还需结合数据规模、变量性质等因素。例如样本量非常小时,非参数方法的表现常常不佳,参数化或简化假设反而效果更好。而在变量间关系复杂未知时,非参数方法可揭示新线索。
当前经济学计量方法不断融合创新,不再拘泥于单一范式。常见的融合策略包括:
序贯分析策略
稳健性分析与敏感性检验
近年来,模型平均与综合方法在经济学实证中被广泛应用。对于同一研究问题,研究者可以对多种估计方法的结果进行加权平均(如采用贝叶斯模型平均、AIC/BIC权重等),从而减少因模型选择带来的不确定性,提升预测的稳定性和精度。
与此同时,经济学计量分析与机器学习方法的结合日益紧密。LASSO、随机森林等机器学习工具正在被引入到变量筛选、非线性建模等环节,拓宽了传统经济分析的边界,也为识别复杂特征和提升模型表现力提供了新的可能性。
中国经济的特殊性,使得方法选择过程中必须高度关注本土化特征:
中国经济研究在方法选择上,需要充分考虑结构性变化、数据质量、制度环境等本土特征。首先,由于宏观环境和政策体制在中国常常出现剧烈变动,传统的平稳性与均值不变假设往往难以成立,这就要求计量分析能够灵敏识别截面或时间上的断点。因此,具备捕捉结构突变能力的非参数或变化系数模型在实际分析中显得尤为关键。
在中国,历史数据和某些领域的数据样本常常存在缺失或测量误差,这使得依赖强结构假设的参数化方法易产生系统性偏差。相比之下,半参数和非参数方法在只作有限假设的前提下,能够最大程度减少数据问题带来的误判风险,从而提升研究的稳健性。
此外,中国的经济制度与实际运行机制往往与西方国家大为不同,若不加甄别地照搬西方经验所形成的参数模型,极可能导致实证结论偏离真实国情。因此,更为灵活的半参数和非参数方法凭借对结构性假设的极大宽容性,更适宜于我国制度多样性和外生性强烈的研究场合。
在实务中,针对城乡收入差距、产业政策效应以及中小企业信贷约束等具有中国特色的问题,越来越多的学者倾向于先用非参数方法探查数据特征,再以半参数模型深化分析,同时结合分位数回归、断点回归等创新工具建立“方法闭环”。这种多方法协同的策略,有效提升了研究结论的丰富性与说服力。
在分析中国经济问题时,半参数和非参数方法往往能够提供更可靠和稳健的结果,因为它们可以绕开过于强烈的分布假设,更好适应中国特有的数据结构和制度环境。建议中国经济应用研究优先考虑多方法互补、迭代验证的策略,从而提升研究结论的可解释性和可信度。
“如何判断某个估计方法‘好’还是‘不好’?”是应用计量分析时必须面对的核心问题。不同方法在偏误、方差、稳健性、灵活性和计算代价等方面各有得失,系统性的性能评估有助于我们选择最适合实际研究目的和数据特点的工具。
蒙特卡洛模拟(Monte Carlo Simulation)是经济学计量和统计学中性能评估的“黄金标准”工具。研究者通过设计一个明确已知真实参数和生成机制的数据世界,在可控的实验环境下对比各种估计方法的优劣。
蒙特卡洛模拟的基本流程:
设定数据生成过程(DGP)
即事先设定好模型、参数、扰动项分布等。例如:,其中 。
模拟设计的拓展要素:
模拟研究揭示了理论性能,但现实世界复杂多变,用实际数据进行外部验证至关重要。通常流程是:先用模拟找出方法的优劣分布,再在代表性真实数据集上重现主要结论,观察方法在“非理想情况”下的表现。
此外,不同估计方法在处理大样本、小样本、数据分布偏态、缺失值等方面有各自的优势和局限。实际数据可能包含模型未能预见的复杂性(如结构突变、测量误差、因果关系混杂等),验证环节不可或缺。
以下表格是某次比较估计方法主要性能指标的例子:
说明:
- “偏误”反映估计值是否长期偏离真实值;
- “均方误差”兼顾偏误和方差,全面衡量精度;
- “计算时间”决定方法可用于大样本还是实时分析;
- “稳健性评分”判断在异常样本、模型错误下的稳定性。
在多种估计方法面前,如何做出合理选择?除了用单一性能指标排序,还可以借助决策流程图或二维坐标进行划分——比如用“模型假设强度”和“计算复杂度”为横纵轴,将不同方法归类于“效率优先”或“稳健性优先” 区域,帮助直观理解各自的取舍。
实务提示:
- 初步分析建议模拟与真实数据交替验证,综合考虑偏误、方差和稳健性。
- 充分关注样本结构与异常值(outlier)的影响。
- 对于核心结论,建议多种方法求证,一致性高说明结果更可靠。
- 经济学实操中,需平衡理论假设与计算可行性,灵活选用适合自身数据与问题的估计方法。
通过科学的性能评估,研究者能够更自信、更系统地在实际工作中选择最合适的方法,为得出可靠的计量结论提供坚实基础。
在众多估计方法中,选择需兼顾理论一致性、假设合理性、稳健性检验和计算可行性,应确保方法既贴合经济理论,又适用于实际研究环境,并能通过多方法交叉验证提升结论的稳健性。此外,伴随计量经济学方法不断演进,跨学科融合(如与统计、机器学习结合)、因果识别、异质性分析及实时应用已成趋势。研究者不仅要夯实理论功底,累积实践经验,还需保持开放心态,主动尝试新方法并理性对待其局限性,始终以批判性思维独立判断,而非盲从流行。
计量经济学方法日趋多元,这正是学科成熟的表现。但方法不是越复杂越好,关键是能否针对具体研究问题,选出最契合实际的数据分析工具。中国经济学者既要紧跟国际前沿,也需结合国情创新本土适用方法,方能服务高质量发展。无论技术多么先进,理论思考与批判精神始终是经济学研究不可或缺的根基。
拥有无限支撑,平滑性最佳,适合大部分连续数据。
Epanechnikov核(理论最优核)
理论上具有最小均方误差(MSE),计算简便,支撑集有限。
均匀核(Uniform Kernel)
结构最简单,边界现象较突出,常用于教学与示范。
设置实验变量
典型变量包括样本量(如n=100, 500, 1000)、噪声强度、模型结构(如变量维度、共线性强弱)等。
反复生成数据与估计
每次随机生成一组数据(坚持已知“真相”),用不同方法对这些数据估计参数,重复多轮(如1000次)。
汇总性能指标
统计各方法在偏误(Bias)、均方误差(MSE)、置信区间覆盖率、收敛速度和极端点的鲁棒性等方面的平均表现。