Estadística

Esta semana he descubierto el PCA robusto. En la frase anterior he conjugado el verbo en cursiva porque lo he pretendido usar con un significado que matiza el habitual: no es que haya tropezado con él fortuitamente, sino que el PCA robusto forma parte de esa inmensa masa de conocimiento estadístico que ignoro pero que, llegado el caso, con un par de clicks, una lectura en diagonal y la descarga del software adecuado, puedo incorporarlo y usarlo a voluntad.

Ese es otro capítulo más de lo que se está convirtiendo en toda una saga en este blog: véase esto, esto, esto o los enlaces de todas esas entradas. El presente está motivado por parrafitos como

No obstante, en términos absolutos los aumentos se concentrarán, sobre todo, en la Comunidad de Madrid (donde residirán 614.049 personas más que ahora) […]

y otros del mismo cariz que pueden encontrarse en el documento España 2050 recientemente publicado.

Recuerdo el escándalo que me produjo el siguiente modo de razonar estadístico en mi primerísima aproximación al asunto:

Hago un test de significancia (p.e., para ver si dos muestras tienen la misma varianza).
Si no es significativo, asumo que las varianzas son iguales.
Continúo con el test siguiente…

Salí de aquella clase pensando que los romanos estaban locos. Luego, por no ser el único que parecía circular en sentido contrario por la autopista, di por bueno pulpo como animal de compañía. Ahora observo el razonamiento con una mezcla de menosprecio y condescendencia. Pero aún siento, vívido como el primer día, el encontronazo con ese pseudoargumento lógico-matemático.

El argumento del artículo Paraísos Fiscales, Wealth Taxation, and Mobility pivota esencialmente sobre el gráfico

que resultará familiar a muchos lectores de este blog (y, si no, mirad esto). Se trata de un estudio causal de libro en el que se pretende medir el efecto de una política ocurrida en 2010 sobre la línea roja y la línea azul.

La política en cuestión es la reintroducción del impuesto del patrimonio en España en 2010 y las líneas azul y rojas… no está claro. Deberían ser, pretenden ser, el incremento de personas sujetas a dicho impuesto en Madrid (en rojo) y en otras regiones (azul). Los autores lo resumen diciendo que el número de ricos viviendo en Madrid ha subido en 6000 mientras que en el resto de las 16 regiones ha decrecido en una media de 375. Convenientemente, 16 * 375 = 6000.

Acabo de subir a Youtube mi nuevo vídeo,

que es una somerísima introducción a la causalidad según Pearl. De hecho, el vídeo está basado en el epílogo de su libro, Causality, de 2000.

En el vídeo me refiero a dos fuentes de las que anuncio enlaces. Son:

A veces nos encontramos con problemas como:

curar un orzuelo,
calcular el área por debajo de una curva,
medir la altura de la torre de una iglesia o
estimar la elasticidad del consumo de un producto con respecto a su precio

y utilizamos técnicas como

preparar un ungüento de acuerdo con las instrucciones de una vecina octogenaria;
pintar la curva sobre un cartón, recortarlo y pesarlo;
preguntarle al párroco u
obtener datos de precios, consumos y hacer algún tipo de regresión.

Algunas de esas técnicas son tecnologías; otras, no. Todas las tecnologías son técnicas, pero no a la inversa. Una tecnología es una técnica basada en la ciencia.

En tiempos, cuando me dedicaba a esas cosas, el principal motivo por el que en los bancos que conocí por dentro no usaban otra cosa que GLMs era el BdE. Más concretamente, el carpetovetonismo del BdE: el BdE quería y esperaba GLMs, los bancos construían y mostraban GLMs a los reguladores y todo el mundo vivía feliz y despreocupado de las novedades en su covacha.

Ahora, en el BdE han publicado esto, cuyo resumen es:

Nada nuevo que no haya publicado antes por aquí: véase esto. Solo que esta vez, audiovisualmente (y con una pésima calidad de imagen: aún no le tengo pillado el truco a la cámara).

Después de superado el último pico de trabajo y una afonía galopante, vuelvo a la carga con un viejo tema: el de la fiabilidad de las encuestas.

En esta entrada voy a tratar de reconstruir históricamente el concepto de intervalo de confianza (IC) para tratar de explicar por qué el concepto ha llegado a tener una definición e interpretación tan precisa como confusa (e inútil). La interpretación de lo que realmente son los IC son el coco —el que se lleva a los diletantes que saben poco— con el que amenazar a quienes tienen inseguridades metodológicas y una marca de erudición incontestable para quienes son capaces de enunciarla sin que se les trabe la lengua.

Estadística

PCA robusto

Todavía más sobre las proyecciones de población a largo plazo del INE

¿Por qué nos habremos acostumbrado a esto?

Causalidad y paraísos fiscales

Nuevo vídeo en YouTube: una breve introducción a la causalidad "a la Pearl"

Más sobre si la estadística es una ciencia

Un artículo muy poco BdE del BdE

Nuevo vídeo en YouTube: micromuertes

Nuevo vídeo en YouTube. Esta vez, sobre encuestas.

¿Por qué es tan enrevesada la definición de intervalo de confianza?