离散选择与事件计数

在现实经济生活中,我们经常面临各种选择决策。比如消费者选择购买哪个品牌的手机,求职者决定从事哪种职业,投资者选择投资哪只股票,或者政府决定采用哪种政策方案。这些决策的共同特点是结果都是离散的,而不是连续的数值。
传统的线性回归模型主要用于分析连续型因变量,但当我们面对这些离散选择问题时,就需要使用专门的计量经济学工具。离散选择模型正是为了解决这类问题而发展起来的重要分析方法。
离散选择的四大类型
根据选择问题的性质和结构,离散选择常被划分为四种主要类型:
离散选择模型的核心思想是将分析框架从传统的数值关系转向概率关系,使用计量经济工具对事件发生的概率进行建模和预测。
现实应用的重要性
离散选择模型在现代经济学研究和实践中具有广泛的应用价值。在市场研究中,企业可以使用这些模型分析消费者的品牌选择行为,制定更有效的营销策略。在公共政策领域,政府可以利用这些模型评估不同政策方案的社会接受度和实施效果。
疫情期间的政策选择分析
2020年新冠疫情期间,各国政府面临的防疫政策选择就是典型的离散选择问题。政府需要在严格封锁、适度管控、和相对宽松等多种政策方案中做出选择。这种选择不仅取决于疫情的严重程度,还受到经济发展水平、医疗资源配置、社会接受度等多种因素的影响。
通过离散选择模型分析,研究者发现不同国家的政策选择模式存在显著差异。发达国家更倾向于采用严格的封锁措施,而发展中国家更多考虑经济影响。这种分析为未来类似公共卫生危机的应对提供了重要参考。
新能源汽车市场的消费者选择
中国新能源汽车市场的快速发展为离散选择模型提供了绝佳的应用场景。消费者在传统燃油车、混合动力车和纯电动车之间的选择涉及多个复杂因素:购车成本、使用成本、充电便利性、政策补贴、环保意识等。
通过多项选择模型分析,研究发现消费者的选择行为存在明显的地域差异和时间演变。一线城市消费者更重视环保和政策因素,而三四线城市消费者更关注经济性。这些发现帮助汽车制造商制定了差异化的市场策略。
无序多项选择模型
当个体面临两个以上的选择选项,且这些选项之间没有自然的排序关系时,我们就需要使用无序多项选择模型。这类模型在现实中有着广泛的应用。
实际应用案例
下面通过几个实际案例,来说明无序多项选择模型在社会经济问题中的应用场景:
城市居民交通工具选择:在中国大城市,居民上下班可以选择地铁、公交、自驾、骑共享单车或打车等多种方式。例如在北京、上海等地,不同群体在多种通勤方式中做出选择,取决于交通状况、通勤距离、个人经济能力和出行时间等因素,这些选项之间并无固定排序。
高考志愿填报选择:中国高考生在录取志愿填报时,需要在众多高校和专业中选择,这本质上是一个典型的多项无序选择问题。学生会综合考虑学校声誉、专业兴趣、就业前景及地理位置等因素,最终在多个不可排序的志愿中做出单一选择。
住房购买类型选择:在一线和新一线城市,购房者可在新建商品房、二手房、公寓、共有产权房等多种住房类型中选择。购房决策受到价格、地段、学区等诸多因素影响,选项不具有自然排序。
新能源车品牌选择:中国消费者面临比亚迪、蔚来、小鹏、特斯拉等众多新能源汽车品牌的选择。选择主要受价格、补贴、充电便利性及品牌偏好等影响,且品牌之间无天然排序。
医疗机构就诊选择:患者在面临小病时,可选择社区卫生服务中心、区县医院、市级三甲医院或私人诊所等多种医疗资源。选择决策受就医距离、费用、服务质量等影响。
在上述每一个案例中,个体都在两个或多个不可排序的方案中做出单一决策。这些选择集合都属于无序多项选择,与有序选择(如评级、等级评价等)形成鲜明对比,后者具有内在的排序结构。
多项Logit模型的随机效用基础
无序选择模型建立在随机效用模型的基础之上。对于面临J个选择的第i个消费者,假设选择j的效用为:
Uij=zijθ+εij
如果消费者特别选择了j,那么我们假设Uij是J个效用中的最大值。因此,统计模型的驱动力是做出选择j的概率:
Pr(Uij>Uik),对于所有 k=
条件Logit模型的数学推导
模型的可操作性取决于对扰动项分布的特定选择。与二元选择情况一样,通常考虑两种模型:logit和probit。由于需要评估正态分布的多重积分,probit模型在这种设定中的使用相当有限。相比之下,logit模型在经济学、市场研究、政治学、金融学和交通工程等许多领域得到了广泛应用。
McFadden证明了一个重要结果:当且仅当J个扰动项独立且同分布,服从Gumbel(第一类极值)分布时:
F(εij)=exp(−exp(−εij))
选择概率具有以下形式:
Pr(Yi=j)=k=1
这就是所谓的条件logit模型。
个体特征与选择属性的区分
在实际应用中,效用函数中的变量zij包括个体特定的方面以及选择特定的方面。区分这两者是很有用的。设zij=[xij,其中:
当我们在模型中纳入这一事实时,概率公式变为:
Pr(Yi=j)=
一个重要的发现是,在不同选择之间不变的项(即个体特定的项)会从概率中消除。这在比较选择效用的模型中是符合预期的。
购物中心选择的实例分析
例如,考虑不同城市个体的购物中心选择模型,该选择取决于商场的店铺数量Sij、距离中心商业区的距离Dij和购物者的收入Ii。三个选择的效用函数为:
选择购物中心1的决策表明:
Ui1−Ui2=
Ui1−Ui3=
注意常数项和收入从比较中消除了。这个结果来自于随机效用模型最终基于选择对的比较,而不是选择本身。
如果模型要允许个体特定效应,则必须进行修改。一种方法是为选择创建一组虚拟变量(选择特定常数),并将每个变量与共同的个体特征相乘,允许这些选择不变特征的系数在不同选择之间变化。
多项Logit模型的具体形式
当数据是个体特定的时,多项logit模型的形式为:
Pr(Yi=j∣wi)=
其中 j=0,1,…,J。
在继续之前,我们必须消除模型中的一个不确定性。如果我们定义αj∗=αj+q(对于任何向量q),然后使用而不是重新计算概率,会产生相同的概率集合,因为涉及的所有项都会消除。解决这个问题的便利标准化是。
因此,概率为:
Pr(Yi=j∣wi)
高校录取志愿填报案例
以我国高考生的志愿填报为例,经常需要在多所高校/专业中选择一个最适合自己的录取志愿。假设有一组来自东部某省的2,000名高考考生的抽样数据,包括他们最终选择的高校类型,以及家庭和个人特征等信息。
这个模型能够为具有特征wi的考生提供对J+1个高校类型选择的概率。模型结构表明,可以计算J个对数几率比:
ln(PikPij
从估计的角度来看,几率比Pij/Pik不依赖于其他潜在选择,这主要源自模型假定的扰动项相互独立。这一结论在实际模型估计中具有很高的应用价值,但从行为解释上看存在一定局限,我们将在下文进一步讨论。
条件Logit模型

当研究中的数据主要由选择特定属性而非个体特征主导时,最常用的模型就是条件Logit模型(Conditional Logit Model)。这种模型广泛应用于交通方式、商品品类、岗位申请等情境,其核心是,每个选项j都有与之相关的属性xij,而所有选择共享相同的一组系数β。
模型的基本形式
条件logit模型给定i个体在J个可选项之间选择j的概率为:
Pr(Yi=j∣
这里,xij表示个体i对选项j的属性向量,β是参数向量,j。
与多项logit模型相比,条件logit用于描述每个选项的属性影响概率,而非研究个体特征对所有选项概率的影响。
边际效应与弹性
在条件logit模型中,β的系数无法直译为概率的变化,因为它们对所有概率都有影响。设xim为属性m,则连续变量的边际效应为:
∂xim∂Pij
其中I(j=m)若j=m则取1,否则取0。这表明,对xm的变化,所有概率都会产生变化,而不仅仅是第m个选择的概率。
常常也报告弹性,即属性变动1%对概率变动的百分比影响:
∂lnxmk∂lnP
弹性衡量属性涨1%时选项j概率变化的百分比,可更直观进行解释。
模型估计与极大似然法
参数估计通常用极大似然法。定义指示变量dij,若个体i选择j则dij=,否则为0。对数似然函数为:
lnL=i=1∑nj=1∑J
令xˉi=∑jPij,则一阶导数(梯度)为:
∂β∂lnL=i=1
二阶导数(Hessian)为:
∂β∂β′
这一简洁结构方便了牛顿法等数值优化。
拟合优度度量
对于条件logit,拟合优度可以用对数似然比检验、预测准确率等。因模型中β无常数项,若β=0,则各概率均等Pij=1/J,此时约束对数似然为:
Lc=−nlnJ
当然,也可通过引入J−1个选择特定虚拟变量实现类似多项logit的对比。
无关选择的独立性假设(IIA假设)
在多项logit和条件logit模型中,存在一个本质结构性假设,即无关选择的独立性(Independence of Irrelevant Alternatives,简称IIA)。其含义是:对于任何两个选择j和m,他们的几率比
PimPij
与选项集中的其他所有选项无关。其理论基础是扰动项互相独立且同分布(Type I Extreme Value)。
IIA假设的含义详解
IIA假设意味着:即便我们新增或删除其他选项,Pij/Pim的比值本质上不变。这对实际应用有很大影响。
IIA假设的问题案例:红车蓝车悖论
举一个经典“红车-蓝车”悖论来具体理解。假设起初只有“两种交通方式”:汽车和公交。
- 原方案下,选汽车概率0.6,选公交概率0.4。
- 当“汽车”细分为“红色汽车”“蓝色汽车”后,模型预计汽车与公交的比例不变,然实际人们一般只会在“红、蓝汽车”间分流,不会显著增加对公交的选择。
如该例所示,IIA假设不符合大多数实际选择行为的直觉:新选项的加入往往会“分流”相关类别,不应保持原有比率。
Hausman-McFadden检验
检验IIA假设是否成立的经典方法是Hausman-McFadden检验。其思想为:若部分选项真的无关,则删去这些选项不会系统性改变剩余参数。如果显著变化,则IIA假设被拒绝。
检验统计量为:
χ2=(β^
其中s代表仅基于子集估计,f代表全样本估计,V^s,V^分别为其参数协方差矩阵,统计量服从自由度卡方分布。
交通方式选择IIA检验
以某出行方式调查为例,数据包括210人在四种方式(飞机、火车、公交车、汽车)中选择:
假设我们移除“飞机”作为候选选项,然后对剩余三种选择拟合条件logit模型。假如Hausman检验统计量H=33.3367,而卡方临界值(自由度4)为9.488,则有力拒绝IIA假设,表明“飞机”与其他选项并非真正独立。
当IIA假设被拒绝时,说明标准的多项logit或条件logit模型可能不适合实际数据,需要考虑更灵活的选择结构建模方式,如嵌套logit模型、多项probit模型等。
嵌套Logit模型
如果无关选择的独立性检验失败,就需要对多项logit模型进行替代。一个自然的替代方案是多元probit模型,但其实际困难在于计算多元正态积分以及估计无限制相关矩阵。
模型的基本思想
放松条件logit模型中同方差假设的一个方法,是将选择分组,使各组之间允许方差不同,而组内依然保持IIA假设。这样规范就定义了嵌套logit模型。
可以把这种规范看作是一个两层(或多层)选择问题。假设 J 个选择可分为 B 个子组(分支),使选择集可写为:
[c1,
从逻辑上,我们可以将选择过程视作:首先在 B 个选择集之间进行选择,然后在被选中的集合内部做出具体选择。
数学推导
假设数据包含选择属性 xij∣b 以及选择集属性 zib 的观测。无条件概率为:
Prob[twig j,branch b]=Pijb
这个概率可以拆解为:
Pijb=Pij∣b×Pb
其中包含值定义为:
IVib=ln(j∑exp(x
整理后有以下结论:
Pij∣b=∑jexp(
Pb=∑
新参数 τl 必须等于1时才能还原出原始模型。因此,加上约束 τl=1 就能恢复条件logit模型;而嵌套logit模型则是放松这一约束后的结果。
实际应用
基于前面交通方式选择的数据,可以构建嵌套logit模型的层次结构,将四种交通方式分为两个主要分支:
嵌套结构的可视化表示
这种嵌套结构的经济学直觉是,消费者首先在“飞行”和“地面交通”之间做出高层次选择,然后在选定分支内做具体交通方式选择。飞行分支只有一个选项(飞机),因此条件概率 Pj∣fly=Pair∣fly=1。地面分支包含三种选择,在这个分支内仍满足IIA假设。
估计结果比较
嵌套(异方差性)对同方差性零假设的似然比统计量为 10.945。95% 临界值为 5.99,因此虚无假设被拒绝。
嵌套logit模型通过允许选择集内的相关性来放松IIA假设,同时保持模型可估计性。它在交通经济学和市场研究中应用广泛。
事件计数模型
在现实经济生活中,计数数据模型极为常见。我们经常需要对一些事件的出现次数加以建模和解释,例如:个人在一年内就诊的次数、公司一段时期内获取专利的数量、某地区交通事故的发生次数等,这些变量皆为典型的“计数型数据”。计数变量的随机性和离散型特征决定了需要有别于普通线性回归的专门方法来分析。
泊松回归模型
泊松回归模型是分析计数数据最基础和最常用的工具。其核心假设是每一个观测 yi 来自参数为 λi 的泊松分布,而 λi 与一组解释变量 相关。
最一般的泊松分布公式为:
P(Y=yi∣xi)=
最常用的 λi 结构是假定对数线性关系,即:
lnλi=xi′β
因此,
λi=exi′β
在泊松模型下,可以轻松证明:每期预期事件数均等于其方差,即
E[yi∣xi]=Var[y
由于对数连接函数的采用,回归系数的边际效应为
∂xi∂E[yi∣x
泊松分布的形状特征
如上图所示,泊松分布随着 λ 的增大会逐步从右偏分布变为对称分布,其最核心的特性是均值总等于方差,即 E[y]=Var[y]=λ。这也是后续检验该模型设定与现实数据吻合度的重要依据。
最大似然估计
虽然泊松模型也可以来自回归的视角进行参数估计,但最大似然法最为常用也最方便。其对数似然函数为:
lnL=i=1∑n[−λi
一阶导(似然方程)为:
∂β∂lnL=i=1∑n
二阶偏导(Hessian矩阵)为:
∂β∂β′∂2lnL=
因为 −∑iλixixi′ 为负定,牛顿迭代法(Newton-Raphson)可高效收敛,实际应用中大多都使用该方法估算。
拟合优度测度
泊松回归没有线性回归那样天然的 R2,因为条件均值是非线性的,且回归模型本身异方差。为此学界提出了一些拟合优度统计量。
基于标准化残差的 R2:
Rp2=1−
基于偏差(deviance)的测度:
单个观测的偏差定义为
di=2[yiln(
偏差之和
G2=i=1∑nd
Cameron与Windmeijer提出的拟合度:
Rd2=∑
过度离散检验
泊松模型最强的假设是 yi 的均值等于方差。如果数据远大于等于,模型不成立,需要扩展模型。
回归型检验:
Cameron和Trivedi提出基于残差平方的统计量以检验
H0:Var[yi]=
他们建议对如下变量进行回归:
zi=λ^i
以常数或 λ^i 为解释变量进行回归,α 显著则拒绝原假设。一个简单的 t 检验就足够。
拉格朗日乘数检验:
在负二项模型为备择分布框架下,拉格朗日乘数统计量形式为
LM=2∑iλ^
理论上,若原假设成立,上述 LM 统计量渐近服从自由度为1的 χ2 分布。
负二项回归模型
动因和模型框架
泊松模型的主要弱点是强制 E[yi]=Var[yi]。实际样本通常呈现“过度离散”(方差远大于均值)。最常见的解决方案是采用负二项回归模型,它可通过引入未观测个体异质性(即 ϵ)对泊松模型加以推广:
lnμi=xi′β+ϵ
ϵi 反映了非观测扰动或截面异质性。
分布推导与特征
在给定 xi,ui 的条件下,yi 仍服从参数为 的泊松分布:
f(yi∣xi,ui
为便于积分,通常令 ui=exp(ϵi) 服从 Gamma 分布。如果必要的积分展开,yi 的无条件分布就是负二项分布:
f(yi∣xi)=
其中
ri=λi+θλi
负二项分布拥有如下的均值与方差特征:
E[yi∣xi]=λ
因此Var>E,可合理建模现实中方差远大于均值的过度离散现象,且参数可用最大似然法估计。
泊松 vs 负二项分布的比较
如上图所示,泊松分布高度集中、尖峰,方差严格等于均值。现实生活中计数数据常表现为“过度离散”,即方差远大于均值,负二项分布提供更宽泛和灵活的数据拟合能力,也包含了泊松分布为其 θ→∞ 的特例。
保险理赔案例的模型分析
以下用保险公司年度车险理赔次数的实际数据,说明计数数据模型的作用。设被解释变量为每位客户一年理赔次数 Y,解释变量为:
xit=(1,Age,DrivingExperience,Income,CarType,Urban)
主要参数估计比较
相关检验统计量均极显著拒绝等离散假设。Cameron 和 Trivedi 的半参数检验 t 统计为 19.403 与 19.902,远超临界值 1.96。基于负二项的 Wald 及似然比检验亦得出一致结论。
所有规范下,Urban 的估计系数大幅超过标准误 10 倍。可见,对在城市地区的投保人,理赔次数显著更高,与道德风险假说一致。
在计数数据分析中,对“过度离散”进行检验极为重要。若存在过度离散,采用标准泊松模型会低估标准误,导致显著性被高估。
总结与展望
离散选择与事件计数模型是分析微观经济行为的核心工具,建立在随机效用理论基础上。方法上,从多项logit、嵌套logit到有序probit、泊松和负二项回归,再到零膨胀模型,极大丰富了对离散型数据的分析能力。实证上,这些模型已广泛应用于交通、劳动、健康、产业和数字经济等领域,为政策与商业决策提供有力支撑。
核心模型与适用情境
选模型时需关注理论一致性、数据特征与实际约束及政策相关性。不同数据结构或研究目标常需平衡可解释性与灵活性。例如,IIA假设是否合理、是否有过度离散、零值比例是否过高以及可用资源等,均影响方法择优。