Podría ser Simpson, pero a lo mejor es "otra cosita"

Observo en The deadly effects of losing health insurance cómo el efecto de interés, 15% sobre una población se convierte en efectos del 16%, 23% y 30% en sus tres subpoblaciones (útimas columnas de la tabla que ocupa la página 25). Es raro que el efecto combinado no esté cerca de la media ponderada (por población) de cada uno de sus subcomponentes.

Podría ser Simpson, pero hay motivos para pensar que hayan cambiado las proporciones de las poblaciones subyacentes (demasiado). Habría un efecto Simpson, por ejemplo, si se hubiese incrementado sustancialmente la proporción del grupo con el efecto (no confundir con la variación del efecto) globalmente más pequeño antes y después del tratamiento. Pero dudo que sea el caso.

Feliz verano (y nos vemos en septiembre)

Suelo interrumpir la publicación de entradas en agosto y este año no será excepción. No porque me vaya de vacaciones sino porque, según Google Analytics, os vais vosotros.

Así que, en septiembre, más. Y cuidado con la ola de calor que se nos viene: decidles a vuestros mayores que beban mucha agua, etc. porque no los quiero ver aparecer en mi base de datos (de seguimiento diario de la mortalidad).

Como no podemos medir X, usamos Y; pero luego, en las conclusiones, no criticamos Y sino X

Ayer estuve leyendo un artículo (arg, y perdí la referencia; pero da igual para la discusión, porque es genérica) en el que trataba de atribuir diferencias de mortalidad a diversas causas: diabetes, tabaco, alcohol,… y SES (estado socioeconómico).

El gran resultado más reseñable (por los autores) era que un SES bajo implicaba nosecuántos años menos de vida, incluso descontando el efecto del resto de los factores (y no recuerdo si estudiaban las correlaciones entre ellos, etc., como se debe en un estudio con pretensiones causales).

¿Por que slt-ear si puedes stR-ear?

La función stl (véase aquí un ejemplo de uso). Pero tiene sus limitaciones.

El paquete stR la extiende y permite, entre otras cosas, introducir distintos tipos de estacionalidades (p.e., anuales y semanales).

La reedición del sueño de Laplace

Dejó escrito Laplace:

Podemos mirar el estado presente del universo como el efecto del pasado y la causa de su futuro. Se podría concebir un intelecto que en cualquier momento dado conociera todas las fuerzas que animan la naturaleza y las posiciones de los seres que la componen; si este intelecto fuera lo suficientemente vasto como para someter los datos a análisis, podría condensar en una simple fórmula el movimiento de los grandes cuerpos del universo y del átomo más ligero; para tal intelecto nada podría ser incierto y el futuro, así como el pasado, estarían frente a sus ojos.

Suicidios, crisis, y cambios de régimen en series temporales

El capo de los diletantes, en declaraciones a El País, dijo:

“Ellos no se habían dado cuenta y nosotros tampoco”, asegura Antonio Cabrera de León, autor principal del artículo del medio millón de muertos, que defiende la tesis principal de su trabajo: “Yo no tengo duda de que ha habido un incremento importantísimo de la mortalidad”. Y añade: “No negamos que haya un problema con los datos, que a lo mejor no son 500.000, puede variar en decenas de miles arriba o abajo”. Para Cabrera, director del área de Medicina Preventiva y Salud Pública de la ULL, no se puede negar que “los suicidios por los desahucios y las penurias están ahí”.

kamila: Clústering con variables categóricas

La codificación de las variables categóricas en problemas de clústering es la fuente de la mayor parte de los problemas con que se encuentran los desdichados que se ven forzados a aplicar este tipo de técnicas.

Existen algoritmos que tratan de resolver el problema sin necesidad de realizar codificaciones numéricas. kamila es un paquete de R que implementa uno de ellos. El artículo que lo acompaña, A semiparametric method for clustering mixed data aporta los detalles, que en resumen son:

Que no, que es imposible esconder medio millón de muertos (y que la cordialidad está de más)

Esta entrada viene a cuento de esta entrada, Cuidado con los estudios científicos que dicen cosas raras, raras en Malaprensa. Que hay que leer para entender lo que sigue.

A ver. No, ese estudio no dice cosas raras. Dice cosas que a los que os ganamos un porcentaje no pequeño del pan contando muertos nos da una mezcla de risa y rabia. Porque en España mueren unas 1000 personas al día (1200-1400 en invierno y 700-800 en verano) y medio millón de muertos de más en 5 años son casi 300 fallecimientos diarios más. Que se notan mucho, muchísimo.

Sociología normativa: el estudio de cuáles deberían ser las causas de los problemas sociales

Muy útil el concepto de sociología normativa, el estudio de cuáles deberían ser las causas de los problemas. Por supuesto, deberían ser de acuerdo con preconcepciones que uno trae de casa, totalmente inasequibles al dato.

Un ejemplo:

Los narcopisos son propiedad de bancos y fondos buitre, quienes no les desalojan ¿Por qué? Porque los narcopisos se utilizan para estigmatizar al movimiento de vivienda que recupera pisos para familias desahuciadas, que son propiedad de esos mismos bancos https://t.co/rcTUoqry1F

Curso de estadística aplicada con Stan: ejercicio 1

A primeros de julio impartí un curso de estadística bayesiana aplicada con Stan. Tengo que examinar a los alumnos y he aquí el primero de los ejercicios:

En un país, se extrae una muestra de 2000 hombres y mujeres con la siguiente distribución:

men   <- 170 + 3 * rt(1000, 6)
women <- 160 + 2 * rt(1000, 5)
heights <- c(men, women)

Ajusta una distribución (una mezcla de dos distribuciones de Student) usando los datos anteriores, i.e., heights. Puedes suponer conocidos:

  • Los pesos de la mezcla (0.5) cada uno.
  • Que los grados de libertad de las t’s están entre 3 y 8 aproximadamente.
  • Experimenta con otros tamaños muestrales y comenta los resultados obtenidos (y los tiempos de ejecución).

Nota: este problema está motivado por una aplicación real: el ajuste de distribuciones de pérdida en banca y seguros. Típicamente, se mezclan dos distribuciones, una para la cola de la distribución y otra para el cuerpo. Hay técnicas frecuentistas (p.e., EM) para resolver estos problemas. Pero me parecen menos naturales y menos flexibles que la ruta 100% bayesiana.