经济计量学-核心概念辨析

发布者:赵海跃发布时间:2023-09-07浏览次数:1338

Endogeneity vs Exogenity

现在人们说某个模型有内生性问题(endogeneity issue),是指模型中的一个或多个解释变量与误差项存在相关关系。其含义是指模型中的解释变量有内生性(endogeneity)。

可以简单理解为:

与干扰项项相关的变量称为内生变量(endogenous variable)。

与干扰项不相关的变量称为外生变量(exogenous variable)

对于线性回归模型中的解释变量X,干扰项(不可观测到的因素)u,被解释变量Y。

一般会有Y=aX+u,也就是说X会对Y产生影响,干扰项u也会对Y产生影响,且干扰项u与X无关。那么此时,解释变量X就是外生变量,Y与u是相关的,所以可以说被解释变量Y是内生变量。

但是有时,可能由于某种原因,干扰项也会对X产生一定影响,此时干扰项u和解释变量相关,此时的解释变量X为内生变量。

产生内生性问题的原因:

由于经济因素的多重复杂性等原因,内生性问题在所难免,尤其是内生性是计量经济学最为关注的问题。

内生性问题是解释变量与扰动项相关导致的,主要原因有遗漏变量、双向因果和测量误差等导致无法满足cov(x μ)=0的假设。

1 遗漏变量:
遗漏变量是指可能与解释变量Y相关的变量,本来应该加以控制,但是没有控制。此时该变量会跑到扰动项u中,造成扰动项与解释变量存在一定关系。

2 双向因果:
双向因果是指核心解释变量X和被解释变量Y互相影响。假设扰动项u发生正向冲击,Y会增加,也会导致X发生变动,这样的话就会造成核心解释变量X和扰动项相关。

3 测量误差:
测量误差是指被解释变量Y存在度量误差或解释变量X存在度量误差。

比如,当解释变量X存在度量误差时,y=α+βx+e,x无法精确观测,只能观测到x1,x1=x+u,u为度量误差
此时有:y=α+βx1+(e-βu)
因为u和x1相关,所以新的扰动项e-βu和x1存在相关关系,就产生了内生性。

Heteroscedasticity vs Homoscedasticity

问题:如何准确识别自变量X因变量Y的作用?

        考虑到影响Y的因素有很多,不仅包括X,也包括其他因素(也即非观测因素)。为逻辑清晰起见,我们简单把非观测因素的作用归结为Z。如果X的值变化了,Z的值也随之变动,此时你观测到的Y的变动,到底是X引起的,还是Z引起的?说不清楚。所以,从逻辑上来讲,只有在Z不变的情况下,X变了,Y也变了,你才可以说,Y的变动确实是X引起的,因为此时其他因素Z是保持不变的,也就是我们通常说的“其他因素不变”。

        那么,其他因素Z不变,如果其作用被吸收进误差项(因为既然Z是非观测因素,缺乏有效测量数据,那么你在计量经济模型中是只考虑X的),其在统计上的表现之一就是误差项的方差应该保持不变(当然还有其他统计上的表现,方差不变只是“其他条件不变”这一前提的统计表现之一)。因为误差项是随机因素成分,其方差不应随X的变化而表现出系统性的差别当把Z的效应纳入误差项后,如果Z是随X变化的(就是不同的X,其他因素Z也不同),那么这样的误差项当然就表现出“异方差”了

        从另一个角度来说,同方差假设给统计推断带来便利,因为你要估计的方差数大大减少了。不管X取何值,误差项的条件方差都是一样的,否则X每取一个值,你都要去估计一个条件方差,重复测量数据还勉强可以做到,一般的横截面数据是不可能估计出这么多的误差方差的

        研究的样本的重要属性上总是存在差异(Heteroskedasticity),比如人和人之间的消费习惯可能大相径庭,这样你记录1000个人10年的月消费数据,即便他们收入流和资产完全相同,消费流也可能截然不同。在统计性质上,这种不同表现为异方差。所以在计量模型上,横截面数据和面板数据经常出现,也可以说总会存在异质性问题。

Heterogeneity vs Homogeneity

异质性(heterogeneity)其实也就是我们经常所谓的差异、差别。它可以是个体层面上,也可以是群体层面上。前者属于个体异质性,后者属于总体异质性。异质性无处不在,这也是社会科学研究的真正本质。定量的社会科学研究所做的也就是在于理解或认识异质性的主要来源,为此很重要的方式之一就是做社会分组(谢宇,2012)。所以我们总是在研究中运用从最简单的t检验、方差分析到更为复杂点的多元回归分析等统计分析方法来帮助我们做得更合理、更科学。

不过,很多的统计方法都假定总体是同质的。比如,t检验和方差分析中的零假设都是群体之间无差异,而仅含主效应的回归分析也主要是对所有个体拟合一个回归方程。所以,实际研究中,经常看到数据被当作仿佛是从一个单一总体中得到而加以分析,尽管往往样本中所有的个体可能并不具有相同的一套参数值。

实际上,研究者们也经常意识到一个总体可能异质的,是由多个不同的子总体混合而成的,比如男性和女性、城镇居民与农村居民。为此,尝试在模型设定和选择上尽可能地考虑能放宽同质性总体假定,以便得到更合理的认识或对更复杂的理论假说做出实证检验。

最简单的处理就是纳入虚拟变量。比如,在工资收入的Mincer方程中纳入性别虚拟变量female(0=男性,1=女性):

Yi= β0+ β1expi + β2edui+ β3femalei + εi

其中i表示个体,exp为工龄,edu为受教育年限。很明显,上述方程对应着两个方程:

对于男性,Yi =β0 + β1expi +β2edui + εi,

对于女性,Yi =(β0 + β3) + β1expi + β2edui+ εi

表明工龄和受教育年限的收入对男性和女性是一样的,但两者在收入平均水平上具有异质性。更彻底考虑男性和女性两个子总体异质性的做法是进一步纳入exp和edu同female之间的交互项,即:

Yi =β0 + β1expi +β2edui + β3femalei + β4 (femalei×expi) +β5 (femalei×expi) + εi

同样的,

对于男性,Yi =β0 + β1expi +β2edui + εi,

对于女性,Yi =(β0 + β3) + (β1+ β4)expi + (β2+ β5)edui + εi

显然,此模型意味着男性和女性两个子总体不仅收入平均水平不同,同时工龄和受教育程度的收入回报也有差别。注意,这里涉及虚拟变量与其他变量的完全交互,在总体性别参数估计值上与分男性和女性样本分别进行回归是等价的。另外,上一主效应的模型被称作加法模型,后一纳入交互项的模型被称作乘法模型。另外,结构方程建模可以很好地进行多组分析,因此也可以较方便地处理总体异质性。

Heterogeneity vs Hetersoscedasticity

1.异质性:Heterogeneity

一个变量X对另一个变量Y的影响可能因个体而异:

例:

多上一年学让张三的收入增加了1000元,让李四的收入增加了1200元,那么教育年限对收入的影响就存在异质性;

若多上一年学使所有人的收入都增加1000元,那么教育年限对收入的影响就是同质的。

2.异方差:Heteroskedasticity

在变量X的不同水平上,变量Y取值的波动大小可能不同。例:

所有小学毕业的人,有的做了老板年入百万,有的成为工薪阶层年入几万——在六年教育水平上,收入取值的波动很大。所有大学毕业的人,都能找到不错的工作,收入多的年赚百万,收入低的也有几十万——在十六年的教育水平上,收入取值的波动较小。

√ 收入(Y)的波动大小随教育水平(X)的变化而变化,因此Y相对于X有异方差。小学毕业的人的收入水平大都较低,大学毕业的人的收入大都较高,但是小学毕业的所有人收入波动大小与大学毕业所有人的收入波动大小可能差不多。

√ 收入(Y)的波动大小相对教育水平(X)有同方差。

3.异方差VS异质性

3.1 如果Y相对于X是同方差,那么X对Y的影响可能是同质的,也可能是异质的。

例:

假如六年教育:年收入1万元,七年教育:年收入1.2万元,

八年教育:年收入1.4万元…

那么,收入(Y)相对于教育年限(X)是同方差的:不管教育水平是多少,收入在同一教育水平内的波动大小都是0。

多上一年学带来的收入增长都是两千元:教育年限对收入水平的影响是同质的。

假如六年教育:年收入1万元,七年教育:年收入1.2万元,

八年教育:年收入1.6万元…

那么,收入(Y)相对于教育年限(X)仍然是同方差的:不管教育水平是多少,收入在同一教育水平内的波动大小都是0。

多上一年学带来的收入增长分别为2000元、4000元:教育年限对收入的影响在上过六年和七年的这两类群体中是异质的。
3.2 如果Y相对于X有异方差,那么一般来说,X对Y的影响是异质的。

例:

六年教育:年收入都是1万元;七年教育:女性收入1.1万元,男性收入1.2万元。则收入相对教育年限存在异方差的。如果上过六年学的人再上一年学,收入可能涨一千元(女性),也可能涨两千元(男性)。因此,教育年限对收入的影响因性别而异,存在异质性。

Unobserved Heterogeneity vs Endogeneity

Let's suppose we estimate the following:

Y =β0 + β1 X1+ e            (1)

When we estimate a regression such as (1) above and leave out an important variable such as X2 then our estimate of β1 can become unbiased and inconsistent. In fact, to the extent that X1 and X2 are both correlated, X1 becomes correlated with the error term violating a basic assumption of regression. The omitted information in X2 is referred to in econometrics as ‘unobserved heterogeneity.’ Heterogeneity is simply variation across individual units of observations, and since we can’t observe this variation or heterogeneity as it relates to X2, we have unobserved heterogeneity.  Correlation between an explanatory variable and the error term is referred to as endogeneity.  So in econometrics, when we have an omitted variable (as is often with cases of causal inference and selection bias)  we say we have endogeneity caused by unobserved heterogeneity. 

How do we characterize the impacts of this on our estimate of β1?

We know from basic econometrics that our estimate of β =

b =  (X’X)-1X’Y or COV(Y,X)/VAR(X)           (2)

If we substitute Y = β0 + β1 X1+ e into (2) we get:

COV(β0 + β1 X+ e,X)/VAR(X) = 

COV(β0,X)/VAR(X) + COV(β1 X,X)/VAR(X) + COV(e,X)/VAR(X)                         (3)

= 0 + β1 VAR(X)/VAR(X) + COV(e,X)/VAR(X)        (4)

= β1 + COV(e,X)/VAR(X)                                (5)

We can see from (5) that if we leave out a variable in (1) i.e. we have unobserved heterogeneity, then the correlation that results between X and the error term will not be zero, and our estimate for β1 will be biased by the term  COV(e,X)/VAR(X). If (1) were correctly specified, then the term COV(e,X)/VAR(X) will drop out and we will get an unbiased estimate of β1

Reference

https://zhuanlan.zhihu.com/p/138738189

https://blog.csdn.net/ARPOSPF/article/details/87903658

http://econometricsense.blogspot.com/2013/06/unobserved-heterogeneity-and-endogeneity.html

https://zhuanlan.zhihu.com/p/502794801



(0) (0)