第8讲工具变量讲解
第第 8 8 讲讲单方程工具变量回归(完)单方程工具变量回归(完) OLS 能够成立的假设之一是解释变量与扰动项不相关。否则,OLS 估计量 将是不一致的,即无论样本容量多大,OLS 估计量都不会收敛到真实的总体参 数。然而,解释变量与扰动项相关的例子却很多1,解决方法之一就是本讲介绍 的工具变量法。 从历史上看, 工具变量估计和联立方程系统是同时教授的,更老的教科书仅 在联立方程中描述工具变量估计。然而在最近的几十年,内生性的处理和工具变 量估计已经呈现出更广阔的前景,而对于联立方程完整系统设定的兴趣已经减 弱。 最新的教材, 如 Cameron Trivedi 2005, Davidson MacKinnon 1993, 2004 和 Wooldridge 2010, 2013,把工具变量估计看作现代经济学家的工具包中不可 或缺的一部分,用更长的篇幅介绍它,而缩短对联立方程的讨论。 在回归方程中,一个有效(valid)的工具变量应满足以下两个条件 (1)相关性工具变量与内生解释变量相关; (2)外生性工具变量与扰动项不相关。 但是, 工具变量的这两个条件常常矛盾, 即与内生解释变量相关的变量往往 与扰动项也相关。故在实践上,寻找合适的工具变量通常比较困难,需要一定的 创造性与想象力。寻找工具变量的步骤大致可以分为两步 (1)列出与内生解释变量相关的尽可能多的变量的清单(较容易) (2)从这一清单中剔除与扰动项相关的变量(较困难) 传统的工具变量法一般通过“两阶段最小二乘法”(2SLS)来实现,顾名思 义,即作两个回归。可以证明,在扰动项的经典假定下,由 2SLS 得到的工具变 量线性组合是所有线性组合中最渐近有效的2。这个结论类似于小样本理论中的 高斯马尔可夫定理。 第一阶段回归 用内生解释变量对工具变量回归,得到内生解释变量的拟合 值。 1 2 在计量经济学中,把所有与扰动项相关的解释变量都称为“内生变量”。 在条件同方差的情况下,最优 GMM 还原为 2SLS,而最优 GMM 是渐近有效的。 1 第二阶段回归 用被解释变量对第一阶段回归的拟合值进行回归,得到被解 释变量的拟合值。 ivregress Single-equation instrumental-variables regression 命令语法命令语法 ivregress estimator depvar [varlist1] varlist2 varlistiv [if] [in] [weight] [, options] estimator 2sls liml gmm 描述 两阶段最小二乘法2SLS 有限信息最大似然法LIML 广义矩估计GMM 命令描述命令描述 ivregress拟合被解释变量depvar对varlist1和varlist2的线性回归, 使用varlistiv 作为 varlist2的工具变量,varlist1和 varlistiv是外生(解释)变量,varlist2是内生 (解释)变量。ivregress 可以利用两阶段最小二乘法2SLS,有限信息最大似然 法LIML和广义矩估计GMM执行工具变量估计。 备注和示例备注和示例 ivregress 执行工具变量回归和加权工具变量回归。对于工具变量的一般讨 论,请参见 Baum 2006,Cameron 和 Trivedi 2005;2010,第 6 章,Davidson 和 MacKinnon 1993,2004,Greene 2012,第 8 章,以及 Wooldridge 2010, 2013。参见 Hall 2005对于 GMM 估计的明晰介绍。Angrist 和 Pischke 2009, 第 4 章非正式而全面地介绍了工具变量估计量,包括他们在估计处理效应的使 用。 ivregress 的语法假设从方程系统拟合一个方程, 或拟合一个不用指定剩余方 程 的 函 数 形 式 的 方 程 。 为 了 拟 合 一 个 完 整 的 方 程 系 统 , 使 用 2SLS equation-by-equation 或三阶段最小二乘法, 请参阅[R] reg3。 ivregress 的一个优点 是,可以拟合多方程系统中的一个方程,而不用指定剩余方程的函数形式。 形式上,由 ivregress 拟合的模型是 2 yi ziβ1 x1iβ2 ui1 zi x1iΠ1 x2iΠ2 vi2 其中 yi是第 i 个观测值的因变量,zi表示内生回归元(varlist2) ,x1i表示包 括的外生回归元(varlist1) ,x2i表示排除的外生回归元(varlistiv) 。x1i和 x2i统称 为工具。ui和 vi是零均值误差项,ui和 vi元素的相关性假设是非零。 2SLS and LIML estimators 最常用的工具变量估计量是 2SLS。 例 12SLS estimator 我们有从 1980 年以来的州人口普查数据,包括自有住房价值的中位数 hsngval和每月总租金的中位数rent。我们想构建 rent 为 hsngval 和生活在城市 地区的人口比例pcturban的函数 rentiβ0 β1hsngvaliβ2pcturbani ui 其中 i 表示各个州,ui是误差项。 因为随机冲击影响一个州的租金价格,也可能会影响房屋价值,所以我们把 hsngval 看作是内生的。我们相信 hsngval 和 u 的相关性不等于零。另一方面,我 们没有理由相信pcturban和u的相关性不为零, 所以我们假设pcturban是外生的。 因为把 hsngval 当作内生回归元,所以必须有一个或多个与 hsngval 相关但 与 u 不相关的其他变量。此外,这些排除的外生变量不能直接影响rent,因为如 果它们影响 rent 的话,就应该包含在前面指定的回归方程中。另外,家庭收入变 量faminc和地区变量region,与 hsngval 相关但与误差项 u 不相关。总之, pcturban,faminc 和因子变量 2.region,3.region 和 4.region 构成了一套工具变量。 为了拟合方程,我们指定了因变量和包括外生变量的自变量。在括号中,我 们指定了内生回归元,一个等号,和排除的外生变量。其他外生变量必须指定在 等号的右边;出现在回归方程中的外生变量自动纳入工具变量。 use hsng,clear ivregress 2sls rent pcturban hsngval faminc i.region 正如所期望的, 具有更高房屋价值的州有更高的租金价格。生活在城市地区 的州人口比例对租金没有显著影响。 3 技术说明 在联立方程的框架下,写出前面拟合的模型为 hsngvaliπ0 π1faminci π22.regioniπ33.regioniπ44.regioni vi renti β0 β1hsngvaliβ2pcturbani ui 方