顶刊论文:总结内生性问题的24种解决方法
《Journal of Management》2020年4月发表论文“Endogeneity: A Review and Agenda for the Methodology-Practice Divide Affecting Micro and Macro Research”,针对同时性、遗漏变量、选择偏误或幸存者偏差、测量误差等内生性问题总结了24种解决方法。
其中包括实验室实验(Laboratory experiment)、田野试验(Field experiment)、自然实验(Natural experiment)、准实验(Quasi-experiment)、控制变量、敏感性分析、固定效应、工具变量、工具变量设定检验、工具变量估计、作为工具的滞后变量、模型隐含工具变量、奇异的技术、动态面板技术、处理CMV、样本选择、双重差分、回归间断、综合控制组等方法
具体请阅读参考
Hill A D , Johnson S G , Greco L M , et al. Endogeneity: A Review and Agenda for the Methodology-Practice Divide Affecting Micro and Macro Research[J]. Journal of Management, 2020, 47(1):014920632096053.
同时性
是否有任何反馈回路连接预测变量和结果变量?也就是说,这种关系是互惠的吗?
示例一:X=研发支出,Y=公司业绩,研发支出可能会影响企业绩效,也可能会受到企业绩效的影响。
示例二:X=酒精消耗量,Y=工作状态,饮酒可能会影响工作状态,并受其影响。
遗漏变量
回归方程的残差中还包括哪些其他预测因素或结构?这些因素是否也可能与预测变量相关?
示例一:X=工作满意度,Y=工作表现,个人的负面影响可能与这两个变量相关,例如一个人的坏心情会影响到工作满意度,也会影响到其工作表现,这会导致“员工工作满意度和工作表现之间”的因果推断受到干扰。
示例二:X=广告强度,Y=销售额,公司所在的行业可能与这两个变量都相关。
选择偏误或幸存者偏差(处理和/或进入样本)
分析单元或环境的哪些属性可能“选择”预测因子或结果变量的水平(选择处理方式),或者是否存在用于检验的数据(选择样本)?这些属性中是否有一个可能与结果变量相关?
示例一:X=收购的公司,Y=股票升值,收购的公司可能比未收购的公司处于更强的竞争地位(选择处理方式),但我们只能收集关于可以收集收购报告的公司的数据(选择样本)。
示例二:X=个人工作适合度,Y=工作表现,个人将寻找适合的工作(选择处理方式),而不适合的工作可能在衡量工作表现(样本选择)之前辞职
注:X表示预测变量(回归变量、自变量),Y表示结果变量(因变量)。
测量误差
预测变量或结果变量是否存在系统误差?这一系统误差是否与其他变量(即预测结果)相关?
示例一:X=公司声誉,Y=股价,对公司声誉的调查可能会系统性地高估股价较高的公司。
示例二:X=工作满意度,Y=工作表现,如果两个变量由同一个人同时评分,它们可能高度相关。
实验室实验(Laboratory experiment):将参与者随机分为实验组和对照组。保持对照组不变,操纵实验组。
条件和局限:必须能够操纵预测变量并随机分配组。这可能不可行,也不合乎道德。研究结果可能缺乏外部有效性和普遍性。
参考文献:Fromkin & Streufert, 1976; Griffin & Kacmar, 1991; Shadish, Cook, & Campbell, 2002
田野试验(Field experiment): 在自然环境中进行,以提高参与者的外部效度。研究人员在实验组而非对照组中操纵预测变量。
条件和局限:缺少随机抽样会增加其他解释的威胁。
参考文献:Podsakoff & Podsakoff, 2019
**自然实验(Natural experiment): **自然发生的情况,形成实验组和对照组;研究人员通常不会操纵预测变量。
条件和局限:对照组和实验组可能在系统性方面有所不同。
参考文献:Campbell & Stanley, 2015; Chatterji, Findley, Jensen, Meier, & Nielson, 2016; Grant & Wall, 2009; Greenberg & Tomlinson, 2004; Harrison & List, 2004
**准实验(Quasi-experiment): **通过分析干预或意外外部事件前后的数据来确定因果关系的各种方法。
条件和局限:其中许多设计技术与下面描述的分析方法重叠。
参考文献:Shadish, Cook, & Campbell, 2002
**控制变量: **研究人员不感兴趣的无关或混杂变量包括在分析中,以解决遗漏的变量偏差。如果被遗漏的变量不可表示,有时可以使用代理变量。
条件和局限:研究人员不太可能意识到所有相关的混杂变量。一些省略的变量可能不可用或不可见。任意加入控制变量也会产生偏差。
参考文献:Becker, 2005; Bernerth & Aguinis, 2016; Breaugh, 2008; Frost, 1979; McCallum, 1972; Pei, Pischke, & Schwandt, 2019; Spector & Brannick, 2011
**敏感性分析: **通过分析控制变量的加入如何影响系数估计,估计因可能违反外生性假设而产生的偏差的大小。
条件和局限:灵敏度分析只有在控制满足上述要求时才有意义。
参考文献:Frank, 2000; Oster, 2019; Pan &Frank, 2003; Peel, 2014; Xu, Frank, Maroulis, & Rosenberg, 2019
**固定效应: **包括个体或群体效应,以解释未观察到的异质性。
条件和局限:异质性必须在时间或在组内保持不变。无法估计不随时间变化的变量的影响。
参考文献:Antonakis, Bastardoz, & Rönkkö, 2019; Bliese, Schepker, Essman, & Ployart, 2020; Shaver, 2019
**工具变量: **两步或联立方程方法,通过用预测值替换内生变量或包含计算的控制变量来解决偏差。
条件和局限:工具变量必须(1)引起内生变量的变化,(2)仅通过内生变量与结果间接相关。弱工具变量可能比没有工具变量更糟糕。
参考文献:Semadeni, Withers, & Certo, 2014
**工具变量设定检验: **工具变量的一些假设可以检验。如果工具变量有效,则可以检验外生性。
条件和局限:对限制条件和强外生性的检验都建立在至少有一种有效工具的假设之上。
参考文献: Baum, Schaffer, & Stillman, 2003; Basmann, 1960; Hansen, 1982; Hausman, 1978; Sargan, 1958; Stock, Wright, & Yogo, 2002
**工具变量估计: **工具变量模型可以用多种方法估计,包括两阶段最小二乘法(2SLS)、三阶段最小二乘法(3SLS)、最大似然法(ML)和广义矩量法(GMM)。
条件和局限:各种估计方法在效率和对各种假设的稳健性方面有所不同。这些估计方法都不能减少对有效和合理工具的需求。
参考文献: Angrist & Imbens, 1995 (2SLS); Antonakis, Bendahan, Jacquart,& Lalive, 2010 (2SLS); Blundell & Bond, 2000 (GMM); Hansen, 1982 (GMM); Newey & West, 1987 (GMM); Wooldridge, 1997 (2SLS)
**作为工具的滞后变量:**使用内生变量的滞后值作为工具。
条件和局限:滞后变量必须预测内生变量,而与因变量无关。
参考文献: Reed, 2015
**模型隐含工具变量:**潜在变量模型的有限信息估计变量,该模型依赖于现有的观测变量来创建工具。
条件和局限:检验时还需要额外的假设。
参考文献: Bollen, 2019; Bollen & Bauer, 2004; Gates, Fisher, & Bollen, 2019
**奇异的技术:**有时内生性可以通过假设变量和残差的分布形式来解决。和局限:检验假设可能比传统工具所需的假设更难满足。
参考文献: Bollen, 2012; Papies, Ebbes, & Van Heerde, 2017; Sande & Ghosh, 2018
**模型测量误差: **使用潜变量法(SEM)解释测量误差。
条件和局限:在大多数情况下,测量误差的方差必须已知且服从正态分布。
参考文献:Bound, Brown, Mathiowetz, 2001; Durbin, 1954; Fornell & Larcker, 1981; Griliches & Hausman, 1986; Hausman, 1977
工具估计: 将一个有测量误差的变量用作另一个有测量误差的变量的工具。有时称为指标变量法。
条件和局限:这两个变量中的系统性误差必须彼此不相关。
参考文献:Griliches, 1977
处理CMV: 旨在降低CMV的设计和统计技术,CMV是测量误差引起的内生性的来源
条件和局限:偏倚的方向和强度取决于数据收集策略、分析模型的类型、CMV对观察变量的对称效应以及样本数量。
参考文献: Evans, 1985; Lindell & Whitney, 2001; Podsakoff, MacKenzie, Lee, & Podsakoff, 2003; Podsakoff, MacKenzie, & Podsakoff, 2012; Siemsen, Roth, & Oliveira, 2010
样本选择: Heckman处理估计–用第一阶段probit模型来预测“处理”。用来自该方程的逆米尔比率控制第二阶段模型,以估计处理效应。
条件和局限:该模型的一些变差是可用的,但都需要工具变量或其他验证假设。
参考文献: Bascle, 2008; Hamilton & Nickerson, 2003; Wolfolds & Siegel, 2019
**双重差分法:**面板数据法适用于某些群体在一段时间内被处理,而其他群体则没有被处理的情况下的群体均值集。
条件和局限:只有当处理是外源性选择的,或处理和未处理在一段时间内具有平行趋势时,才能避免内生性。
参考文献: Athey & Imbens, 2006; Bertrand, Duflo, & Mullainathan, 2004
**回归间断:**如果回归线显示不连续性,即处理和对照之间的截止点处斜率或截距的变化,则推断出效应
条件和局限:处理的选择必须由连续变量(如测试分数)中的临界值或阈值决定。
参考文献: Hahn, Todd, & Van der Klaauw, 2001; Imbens & Lemieux, 2008; Lee & Lemieux, 2010; Thistlethwaite & Campbell, 1960
**综合控制组:**通过匹配、粗化精确匹配或倾向评分匹配创建对照组。
条件和局限:只有当选择、可观察或处理可忽略的假设适用时,才能避免内生性。
参考文献:Caliendo & Kopeinig, 2008; Dehejia & Wahba, 2002; Li, 2013; Rosenbaum & Rubin, 1983; Stuart, 2010
**工具变量:**也可以解决同时性问题。
条件和局限:在同时性的存在下,工具变量可能更难找到。
参考文献:Bollen, 2012; Papies, Ebbes, & Van Heerde, 2017; Sande & Ghosh, 2018
**滞后内生变量:**使用滞后版本的内生变量。
条件和局限:如果预测变量或因变量序列相关,则可能无法解决内生性问题。
参考文献:Fair, 1970; Bellemare, Masaki, & Pepinsky, 2017
**动态面板技术:**估计第一差异的模型。使用滞后的第一差异作为工具。有时被称为GMM或Arellano-Bond估计量。
条件和局限:假设内生性是由不随时间变化的异质性引起的。第一差分方程中的残差不能序列相关。
参考文献:Arellano & Bond, 1991; Ballinger, 2004; Bergh, 1993; Blundell & Bond, 1998
使用外部事件: 使用干预或外部事件来确定因果关系方向的准实验。
条件和局限:关键的识别假设是,事件并非预期中的。
参考文献:Angrist & Krueger, 1999; Angrist & Pischke, 2010