Artículos

Causalidad y paraísos fiscales

El argumento del artículo Paraísos Fiscales, Wealth Taxation, and Mobility pivota esencialmente sobre el gráfico

que resultará familiar a muchos lectores de este blog (y, si no, mirad esto). Se trata de un estudio causal de libro en el que se pretende medir el efecto de una política ocurrida en 2010 sobre la línea roja y la línea azul.

La política en cuestión es la reintroducción del impuesto del patrimonio en España en 2010 y las líneas azul y rojas… no está claro. Deberían ser, pretenden ser, el incremento de personas sujetas a dicho impuesto en Madrid (en rojo) y en otras regiones (azul). Los autores lo resumen diciendo que el número de ricos viviendo en Madrid ha subido en 6000 mientras que en el resto de las 16 regiones ha decrecido en una media de 375. Convenientemente, 16 * 375 = 6000.

Sobre el "programa fuerte" de la sociología de la ciencia: una visión desde la "ciencia de datos"

I.

Estos días y por razones que no vienen a cuento, he estado leyendo Fashionable Nonsense. Es un libro que puede describirse como la versión del director del conocido como escándalo Sokal.

Para los no advertidos y según la Wikipedia:

En 1996, Sokal, profesor de física en la Universidad de Nueva York, envió un artículo pseudocientífico para que se publicase en la revista postmoderna de estudios culturales Social Text. Pretendía comprobar que una revista de humanidades «publicará un artículo plagado de sinsentidos, siempre y cuando: a) Suene bien; y b) Apoye los prejuicios ideológicos de los editores (contra las ciencias empíricas)».

La lotería del hardware y la cámara de resonancia académica

El artículo The Hardware Lottery es, hasta cierto punto, informativo. En el fondo, no dice nada que no supiésemos ya: que ciertas ideas, algoritmos, procedimientos, métodos, en diversas disciplinas (¡no en matemáticas!) triunfan esencialmente porque les toca la lotería del hardware. No es que sean las mejores desde una perspectiva actual —podría usar aquí los términos etic y emic a lo ovetense— sino que fueron afortunados y bendecidos por el hecho de estar a la (típicamente, medianeja) altura de los tiempos medidos en términos del desarrollo del hardware.

¿A que les ha jugado una mala pasada el Excel?

Se ha dado por cabal en muchos medios lo que espero que no llegue a más que a un borrador. Ha sido publicado por el Banco de España y contiene párrafos como

En cambio, la menor cualificación, por término medio, de los trabajos desempeñados por los jóvenes licenciados españoles sugiere que su nivel de desempleo comparativamente mayor que el de sus homólogos del área del euro podría obedecer, entre otros factores, a una menor calidad de la educación superior.

Sobre los orígenes de la falacia ecológica

Dice la Wikipedia que la primera denuncia de luego conocida como la falacia ecológica hay que buscarlos en Ecological Correlations and the Behavior of Individuals de un tal W. S. Robinson. Cuenta, entre otros ejemplos, cómo existía una correlación positiva entre ser inmigrante y ser analfabeto (según el censo de 1930 de EE.UU.), evidenciada por la tabla

en tanto que si se examinan los mismos datos por divisiones (ciertas agrupaciones de estados que, se conoce, eran más habituales hace tiempo que ahora), se obtiene una representación de la forma

Qué métodos estadísticos utilizar si el pan de tus hijos depende de que las p sean pequeñajas

Según Methods Matter: P-Hacking and Publication Bias in Causal Analysis in Economics, las variables instrumentales (para estas, en particular, véase esto) y las diferencias en diferencias:

Applying multiple approaches to over 21,000 hypothesis tests published in 25 leading economics journals we find that the extent of p-hacking and publication bias varies greatly by method. IV (and to a lesser extent DID) are particularly problematic.

Es curioso que se estudie también la regresión con discontinuidades y que no acabe en el podio. Sospecho que es tan cantosa que no pasa los filtros de los editores y revisores.

¿Modelos para ordenar datos?

Ayer leí este resumen de este artículo que propone y discute un algoritmo novedoso y basado en ciencia de datos para ordenar datos y hacerle la competencia a quicksort y demás. Reza y promete:

The results show that our approach yields an average 3.38x performance improvement over C++ STL sort, which is an optimized Quicksort hybrid, 1.49x improvement over sequential Radix Sort, and 5.54x improvement over a C++ implementation of Timsort, which is the default sorting function for Java and Python.

Socialismo y fascismo en Italia: una reflexión sobre la causalidad y las microcausas

[Una entrada más bien especulativa acerca de esbozos de ideas ocurridas durante un paseo vespertino por Madrid y que apunto aquí por no tener una servilleta a mano.]

El artítulo War, Socialism and the Rise of Fascism: An Empirical Exploration me ha hecho volver a reflexionar sobre el asunto de la causalidad (al que, además, debo un apartado en siempre inacabado libro de estadística para los mal llamados científicos de datos).

Los orígenes de la sicología WEIRD

Es oportuno en estos tiempos que corren aprender los unos y recordar los otros por qué los WEIRD (occidentales, educados, industrializados, ricos y democráticos, recuerdo) somos excepcionales (en las acepciones del término que a cada cual le plazcan más).

De eso trata The Origins of WEIRD Psychology, que se resume en tres puntos:

  • Los WEIRD somos realmente weird (o comparativamente anómalos con respecto a con quienes compartimos mundo).
  • El motivo es la distinta concepción de las relaciones familiares.
  • Que fue causado por la subversión a la que la iglesia (católica) causó en los modos familiares pretéritos prácticamente desde la antigüedad.

Tiene muchas lecturas. Tantas que para qué ofrecer la mía.

Distribuciones (¿de renta? ¿solo de renta?) a partir de histogramas

En el primer número de la novísima revista Spanish Journal of Statistics aparece un artículo con un título tentador: Recovering income distributions from aggregated data via micro-simulations.

Es decir, un artículo que nos puede permitir, por ejemplo, muestrear lo que la AEAT llama rendimientos a partir de lo que publica (aquí):

Uno de los métodos de los que sostienen el ignominioso a mí me funciona está basado en el modelo