Posts
La reedición del sueño de Laplace
Dejó escrito Laplace:
Podemos mirar el estado presente del universo como el efecto del pasado y la causa de su futuro. Se podría concebir un intelecto que en cualquier momento dado conociera todas las fuerzas que animan la naturaleza y las posiciones de los seres que la componen; si este intelecto fuera lo suficientemente vasto como para someter los datos a análisis, podría condensar en una simple fórmula el movimiento de los grandes cuerpos del universo y del átomo más ligero; para tal intelecto nada podría ser incierto y el futuro, así como el pasado, estarían frente a sus ojos.
Suicidios, crisis, y cambios de régimen en series temporales
El capo de los diletantes, en declaraciones a El País, dijo:
“Ellos no se habían dado cuenta y nosotros tampoco”, asegura Antonio Cabrera de León, autor principal del artículo del medio millón de muertos, que defiende la tesis principal de su trabajo: “Yo no tengo duda de que ha habido un incremento importantísimo de la mortalidad”. Y añade: “No negamos que haya un problema con los datos, que a lo mejor no son 500.000, puede variar en decenas de miles arriba o abajo”. Para Cabrera, director del área de Medicina Preventiva y Salud Pública de la ULL, no se puede negar que “los suicidios por los desahucios y las penurias están ahí”.
kamila: Clústering con variables categóricas
La codificación de las variables categóricas en problemas de clústering es la fuente de la mayor parte de los problemas con que se encuentran los desdichados que se ven forzados a aplicar este tipo de técnicas.
Existen algoritmos que tratan de resolver el problema sin necesidad de realizar codificaciones numéricas. kamila
es un paquete de R que implementa uno de ellos. El artículo que lo acompaña, A semiparametric method for clustering mixed data aporta los detalles, que en resumen son:
Que no, que es imposible esconder medio millón de muertos (y que la cordialidad está de más)
Esta entrada viene a cuento de esta entrada, Cuidado con los estudios científicos que dicen cosas raras, raras en Malaprensa. Que hay que leer para entender lo que sigue.
A ver. No, ese estudio no dice cosas raras. Dice cosas que a los que os ganamos un porcentaje no pequeño del pan contando muertos nos da una mezcla de risa y rabia. Porque en España mueren unas 1000 personas al día (1200-1400 en invierno y 700-800 en verano) y medio millón de muertos de más en 5 años son casi 300 fallecimientos diarios más. Que se notan mucho, muchísimo.
Sociología normativa: el estudio de cuáles deberían ser las causas de los problemas sociales
Muy útil el concepto de sociología normativa, el estudio de cuáles deberían ser las causas de los problemas. Por supuesto, deberían ser de acuerdo con preconcepciones que uno trae de casa, totalmente inasequibles al dato.
Un ejemplo:
Los narcopisos son propiedad de bancos y fondos buitre, quienes no les desalojan ¿Por qué? Porque los narcopisos se utilizan para estigmatizar al movimiento de vivienda que recupera pisos para familias desahuciadas, que son propiedad de esos mismos bancos https://t.co/rcTUoqry1F
Curso de estadística aplicada con Stan: ejercicio 1
A primeros de julio impartí un curso de estadística bayesiana aplicada con Stan. Tengo que examinar a los alumnos y he aquí el primero de los ejercicios:
En un país, se extrae una muestra de 2000 hombres y mujeres con la siguiente distribución:
men <- 170 + 3 * rt(1000, 6)
women <- 160 + 2 * rt(1000, 5)
heights <- c(men, women)
Ajusta una distribución (una mezcla de dos distribuciones de Student) usando los datos anteriores, i.e., heights
. Puedes suponer conocidos:
- Los pesos de la mezcla (0.5) cada uno.
- Que los grados de libertad de las t’s están entre 3 y 8 aproximadamente.
- Experimenta con otros tamaños muestrales y comenta los resultados obtenidos (y los tiempos de ejecución).
Nota: este problema está motivado por una aplicación real: el ajuste de distribuciones de pérdida en banca y seguros. Típicamente, se mezclan dos distribuciones, una para la cola de la distribución y otra para el cuerpo. Hay técnicas frecuentistas (p.e., EM) para resolver estos problemas. Pero me parecen menos naturales y menos flexibles que la ruta 100% bayesiana.
Consecuencias indeseadas de la falta de humildad
Me refiero a estas:
Es que es muy ridículo tu afan por aplicar tus promedios frívolamente a los fenómenos más variados para ofrecer predicciones que casi nunca se cumplen. No tiene que ver con el modelo estadístico, sino con el pésimo periodismo paracientífico que haces https://t.co/kD6bxknMFp
– Guillermo López (@GuillermoLPD) 9 de julio de 2018
La historia, resumida, es que Kiko Llaneras publica sus predicciones para el mundial en El País, i.e.,
Las tres culturas
Breiman habló de las dos. Dice, y tiene razón, que:
Según él, la estadística tradicional rellena la caja negra con:
¡Aburrido, aburrido, aburrido! Aburrido y limitado (aunque, hay que admitirlo, útil en ocasiones muy concretas). Breiman sugiere sustituir las cajas negras que encontramos en la naturaleza por otras cajas negras conceptuales:
Que es aún más aburrido y patrimonio, además, de toda suerte de script kiddies.
La tercera cultura reemplaza la caja negra por un modelo generativo que simula el comportamiento de la naturaleza (i.e., del sistema generador de números aleatorios pero con estructura). Y usa Stan (o sus alternativas) para estimar, predecir y, en última instancia, facilitar decisiones informadas.
Replicabilidad (y su falta de ella, fuera de la academia)
Se habla mucho de replicabilidad (y la falta de ella) como indicio de una crisis en ese complejo de intereses económicos, de poder y, en ocasiones, fornicatorios en que ha devenido la ciencia. Pero qué más nos da que se publique un artículo más o un artículo menos o que una ocurrencia irrelevante, gracias a un sinfín de artefactos propios de la industria de la salchicha, sea cohonestada con un p-valor menor o mayor que 0.05. Qué más da.