econometría

Nuevo vídeo en YouTube: un artículo y tres problemas metodológicos

He publicado esto en Youtube: Igual no lo debería haber hecho. Trata del manido tema “alguien ha publicado un artículo científico con serios errores metodológicos”. Que es una versión del más popular (No hace falta que indique la fuente, ¿verdad? Sabéis que sé que sabéis de dónde lo he sacado, ¿no?) Lo he hecho únicamente por lo popular que me da la impresión que se ha hecho en las redes sociales, por las lecciones que se pueden extraer para no cometer los mismos errores por ahí y, finalmente, por la contumacia de gente que debería saber más y mejor.

Más sobre variables instrumentales con R

r
[El título de esta entrada tiene un + delante porque ya escribí sobre el asuntotiempo atrás.] Con la excusa de la reciente publicación del paquete ivreg (para el ajuste de modelos con variables instrumentales, por si el contexto no lo hace evidente), he mirado a ver quién estaba construyendo y ajustando modelos generativos menos triviales que los míos (véase el enlace anterior) para que quede más claro de qué va la cosa.

Regresiones con discontinuidad y grados de libertad

Muy falto de ideas para el blog tendría que estar para traer a la consideración de sus lectores que ilustra el resultado principal del artículo discutido aquí. Mario, un lector del artículo nos quita la palabra de la boca a todos: No he leido [sic] el paper no soy experto en el tema, pero creo que la figura presentada tiene una validez algo cuestionable. Creo que la regresión de discontinuidad es una herramienta muy poco fiable estadísticamente y que introduce un sesgo en la interpretación de los datos.

Gente que toma la causalidad en vano

Me refiero a los autores de El impacto de Airbnb en el mercado de vivienda de Barcelona, que a partir de datos puramente observacionales y en un artículo de apenas 1500 palabras, mencionan la causalidad siete veces. Además, escriben joyas como [N]uestra investigación se basa en un modelo de econometría lineal (y no de econometría espacial) ya que nuestro objetivo principal es hacer un análisis causal robusto. Ya sabes: si quieres un análisis causal robusto, el modelo lineal (chupatesa, Pearl).

Goodhart, Lucas y todas esas cosas

Como me da vergüenza que una búsqueda de Goodhart en mi blog no dé resultados, allá voy. Lo de Goodhart, independientemente de lo que os hayan contado, tiene que ver con es decir, un gráfico causal hiperbásico. Si la variable de interés y es difícil de medir, resulta tentador prestar atención a la variable observable x y usarla como proxy. Todo bien. Pero también puede interesar operar sobre y y a cierta gente le puede sobrevenir la ocurrencia de operar sobre x con la esperanza de que eso influya sobre y.

Charla: las *-metrías en la práctica de la ciencia de datos: el papel de la teoría

El próximo 8 de febrero daré una charla dentro del ciclo de Data Konferences. Para la mía han creado el siguiente cartelito: El resumen que preparé es: Una de las características definitorias de la nueva ciencia de datos es su desdén por los planteamientos teóricos. Aspira a encontrar estructura en los datos aplicando una serie de técnicas, generalmente muy intensivas computacionalmente, pero omitiendo cualquier planteamiento o condicionamiento a priori. Este planteamiento subvierte el que fundamenta las *metrías (sicometría, econometría, etc.

Cuando dicen que la variable x es exógena, quieren decir...

Cuando los economistas dicen que la variable $latex x$ es exógena (con respecto a una variable de interés $latex y$) en realidad quieren decir que la función de verosimilitud $latex f(x,y)$ puede descomponerse de la forma $latex f(x,y) = f(y|x) g(x)$ y eso permite modelizar $latex y$ en función de $latex x$. Cuando la descomposición no es posible (porque $latex x$ y $latex y$ se influyen mutuamente) dicen que $latex x$ es endógena.

Vectorización en R: un contraejemplo

No hay regla sin excepción, dicen. Para la recomendación casi única para quienes se quejan de la lentitud de R, es decir, ¡vectoriza!, he encontrado hoy una. Sí, el artículo deja R por los suelos. En el fondo, no tanto, porque viene a decir que R es malo para lo que la documentación de R dice que es malo: véase cómo en Writing R Extensions nos advierten que la convolución is hard to do fast in interpreted R code, but easy in C code.

Lecturas disparatadas: la salud de los críos y el desempleo

Hay gente que en lugar de escribir cosas debería invertir su tiempo en leer otras. Pero como no me hacen caso, escribiendo cosillas escalan poquito a poco escalafones académicos y, encima, lo pagamos los contribuyentes felizmente engatusados eso del oropel del I+D y nosequé otros intangibles onerosos y de dudosa utilidad pública, podemos hoy disfrutar de otro ejercicio más de ese añejo ritual de la búsqueda del numerito inferior a 0.

Menos econometría y más precioestatos

¿Será necesario un doctorado en econometría para poner una lavadora? Con eso ironiza el autor de El nuevo sistema de precios para la electricidad (I): Entre la tarifa gusiluz y la tarifa batamanta. Os cuento el contexto. Al parecer, a partir de cierta fecha no muy remota, el precio de la electricidad en España variará de acuerdo con el precio en el mercado de generación y, por lo tanto, según la hora.

La desigualdad y cómo medirla

Últimamente he tenido bastantes visitas del extranjero. Las llevo a pasear por el centro de Madrid, ¡qué remedio! Y siempre surge el mismo comentario: habiendo crisis que nos cuentan los periódicos, ¿cómo es que están las terrazas a rebosar? Y mi respuesta es siempre la misma: lo que se ve no es la crisis; lo que se ve, en el fondo, es la desigualdad. Otros han escrito, y mucho mejor de lo que lo haría yo, sobre lo pernicioso de la desigualdad en la economía e incluso, sobre la misma democracia.

Variables instrumentales con R

Los economistas usan unas cosas a las que llaman variables instrumentales con las que uno apenas se tropieza fuera de contextos econométricos. El problema se plantea en el contexto de la regresión $$y_i = \beta x_i + \varepsilon_i,$$ cuando existe correlación entre X y $latex \varepsilon$. En tales casos, el estimador por mínimos cuadrados es $$\hat{\beta} =\frac{x’y}{x’x}=\frac{x'(x\beta+\varepsilon)}{x’x}=\beta+\frac{x'\varepsilon}{x’x}$$ y debido a la correlación entre X y $latex \varepsilon$, está sesgado. La solución que se plantea en ocasiones es el de usar variables instrumentales, es decir, variables correlacionadas con X pero no con $latex \varepsilon$.