Según Methods Matter: P-Hacking and Publication Bias in Causal Analysis in Economics, las variables instrumentales (para estas, en particular, véase esto) y las diferencias en diferencias:
Applying multiple approaches to over 21,000 hypothesis tests published in 25 leading economics journals we find that the extent of p-hacking and publication bias varies greatly by method. IV (and to a lesser extent DID) are particularly problematic.
Es curioso que se estudie también la regresión con discontinuidades y que no acabe en el podio.
[Una entrada más bien especulativa acerca de esbozos de ideas ocurridas durante un paseo vespertino por Madrid y que apunto aquí por no tener una servilleta a mano.]
El artítulo War, Socialism and the Rise of Fascism: An Empirical Exploration me ha hecho volver a reflexionar sobre el asunto de la causalidad (al que, además, debo un apartado en siempre inacabado libro de estadística para los mal llamados científicos de datos).
[El título de esta entrada tiene un + delante porque ya escribí sobre el asunto tiempo atrás.]
Con la excusa de la reciente publicación del paquete ivreg (para el ajuste de modelos con variables instrumentales, por si el contexto no lo hace evidente), he mirado a ver quién estaba construyendo y ajustando modelos generativos menos triviales que los míos (véase el enlace anterior) para que quede más claro de qué va la cosa.
Cuando los economistas dicen que la variable $latex x$ es exógena (con respecto a una variable de interés $latex y$) en realidad quieren decir que la función de verosimilitud $latex f(x,y)$ puede descomponerse de la forma $latex f(x,y) = f(y|x) g(x)$ y eso permite modelizar $latex y$ en función de $latex x$.
Cuando la descomposición no es posible (porque $latex x$ y $latex y$ se influyen mutuamente) dicen que $latex x$ es endógena.
Los economistas usan unas cosas a las que llaman variables instrumentales con las que uno apenas se tropieza fuera de contextos econométricos. El problema se plantea en el contexto de la regresión
$$y_i = \beta x_i + \varepsilon_i,$$
cuando existe correlación entre X y $latex \varepsilon$. En tales casos, el estimador por mínimos cuadrados es
$$\hat{\beta} =\frac{x’y}{x’x}=\frac{x’(x\beta+\varepsilon)}{x’x}=\beta+\frac{x’\varepsilon}{x’x}$$
y debido a la correlación entre X y $latex \varepsilon$, está sesgado.
La solución que se plantea en ocasiones es el de usar variables instrumentales, es decir, variables correlacionadas con X pero no con $latex \varepsilon$.