Endogeneity vs Exogenity
现在人们说某个模型有内生性问题(endogeneity issue),是指模型中的一个或多个解释变量与误差项存在相关关系。其含义是指模型中的解释变量有内生性(endogeneity)。
可以简单理解为:
与干扰项项相关的变量称为内生变量(endogenous variable)。
与干扰项不相关的变量称为外生变量(exogenous variable)
对于线性回归模型中的解释变量X,干扰项(不可观测到的因素)u,被解释变量Y。
一般会有Y=aX+u,也就是说X会对Y产生影响,干扰项u也会对Y产生影响,且干扰项u与X无关。那么此时,解释变量X就是外生变量,Y与u是相关的,所以可以说被解释变量Y是内生变量。
但是有时,可能由于某种原因,干扰项也会对X产生一定影响,此时干扰项u和解释变量相关,此时的解释变量X为内生变量。
产生内生性问题的原因:
由于经济因素的多重复杂性等原因,内生性问题在所难免,尤其是内生性是计量经济学最为关注的问题。
内生性问题是解释变量与扰动项相关导致的,主要原因有遗漏变量、双向因果和测量误差等导致无法满足cov(x μ)=0的假设。
1 遗漏变量:
遗漏变量是指可能与解释变量Y相关的变量,本来应该加以控制,但是没有控制。此时该变量会跑到扰动项u中,造成扰动项与解释变量存在一定关系。
2 双向因果:
双向因果是指核心解释变量X和被解释变量Y互相影响。假设扰动项u发生正向冲击,Y会增加,也会导致X发生变动,这样的话就会造成核心解释变量X和扰动项相关。
3 测量误差:
测量误差是指被解释变量Y存在度量误差或解释变量X存在度量误差。
比如,当解释变量X存在度量误差时,y=α+βx+e,x无法精确观测,只能观测到x1,x1=x+u,u为度量误差
此时有:y=α+βx1+(e-βu)
因为u和x1相关,所以新的扰动项e-βu和x1存在相关关系,就产生了内生性。
Heteroscedasticity vs Homoscedasticity
问题:如何准确识别自变量X对因变量Y的作用?
Heterogeneity vs Homogeneity
Heterogeneity vs Hetersoscedasticity
1.异质性:Heterogeneity
一个变量X对另一个变量Y的影响可能因个体而异:
例:
多上一年学让张三的收入增加了1000元,让李四的收入增加了1200元,那么教育年限对收入的影响就存在异质性;
若多上一年学使所有人的收入都增加1000元,那么教育年限对收入的影响就是同质的。
2.异方差:Heteroskedasticity
在变量X的不同水平上,变量Y取值的波动大小可能不同。例:
所有小学毕业的人,有的做了老板年入百万,有的成为工薪阶层年入几万——在六年教育水平上,收入取值的波动很大。所有大学毕业的人,都能找到不错的工作,收入多的年赚百万,收入低的也有几十万——在十六年的教育水平上,收入取值的波动较小。
√ 收入(Y)的波动大小随教育水平(X)的变化而变化,因此Y相对于X有异方差。小学毕业的人的收入水平大都较低,大学毕业的人的收入大都较高,但是小学毕业的所有人收入波动大小与大学毕业所有人的收入波动大小可能差不多。
√ 收入(Y)的波动大小相对教育水平(X)有同方差。
3.异方差VS异质性
3.1 如果Y相对于X是同方差,那么X对Y的影响可能是同质的,也可能是异质的。
例:
假如六年教育:年收入1万元,七年教育:年收入1.2万元,
八年教育:年收入1.4万元…
那么,收入(Y)相对于教育年限(X)是同方差的:不管教育水平是多少,收入在同一教育水平内的波动大小都是0。
多上一年学带来的收入增长都是两千元:教育年限对收入水平的影响是同质的。
假如六年教育:年收入1万元,七年教育:年收入1.2万元,
八年教育:年收入1.6万元…
那么,收入(Y)相对于教育年限(X)仍然是同方差的:不管教育水平是多少,收入在同一教育水平内的波动大小都是0。
多上一年学带来的收入增长分别为2000元、4000元:教育年限对收入的影响在上过六年和七年的这两类群体中是异质的。
3.2 如果Y相对于X有异方差,那么一般来说,X对Y的影响是异质的。
例:
六年教育:年收入都是1万元;七年教育:女性收入1.1万元,男性收入1.2万元。则收入相对教育年限存在异方差的。如果上过六年学的人再上一年学,收入可能涨一千元(女性),也可能涨两千元(男性)。因此,教育年限对收入的影响因性别而异,存在异质性。
Unobserved Heterogeneity vs Endogeneity
Let's suppose we estimate the following:
Y =β0 + β1 X1+ e (1)
When we estimate a regression such as (1) above and leave out an important variable such as X2 then our estimate of β1 can become unbiased and inconsistent. In fact, to the extent that X1 and X2 are both correlated, X1 becomes correlated with the error term violating a basic assumption of regression. The omitted information in X2 is referred to in econometrics as ‘unobserved heterogeneity.’ Heterogeneity is simply variation across individual units of observations, and since we can’t observe this variation or heterogeneity as it relates to X2, we have unobserved heterogeneity. Correlation between an explanatory variable and the error term is referred to as endogeneity. So in econometrics, when we have an omitted variable (as is often with cases of causal inference and selection bias) we say we have endogeneity caused by unobserved heterogeneity.
How do we characterize the impacts of this on our estimate of β1?
We know from basic econometrics that our estimate of β =
b = (X’X)-1X’Y or COV(Y,X)/VAR(X) (2)
If we substitute Y = β0 + β1 X1+ e into (2) we get:
COV(β0 + β1 X+ e,X)/VAR(X) =
COV(β0,X)/VAR(X) + COV(β1 X,X)/VAR(X) + COV(e,X)/VAR(X) (3)
= 0 + β1 VAR(X)/VAR(X) + COV(e,X)/VAR(X) (4)
= β1 + COV(e,X)/VAR(X) (5)
We can see from (5) that if we leave out a variable in (1) i.e. we have unobserved heterogeneity, then the correlation that results between X and the error term will not be zero, and our estimate for β1 will be biased by the term COV(e,X)/VAR(X). If (1) were correctly specified, then the term COV(e,X)/VAR(X) will drop out and we will get an unbiased estimate of β1
Reference
https://zhuanlan.zhihu.com/p/138738189
https://blog.csdn.net/ARPOSPF/article/details/87903658
http://econometricsense.blogspot.com/2013/06/unobserved-heterogeneity-and-endogeneity.html
https://zhuanlan.zhihu.com/p/502794801