Micromuertes y coronavirus

[Esta entrada abunda en la que escribí hace nueve años sobre las micromuertes y sin la cual no se entiende.] El concepto de micromuerte sirve para anclar y comparar adecuadamente riesgos diminutos. De acuerdo con la entrada que referencio arriba, una micromuerte equivale al riesgo (recuérdese: ¡promedio!) de caminar 15 km o conducir 250. Pasar una noche en el hospital consume 75 de ellos (por riesgo de contagios que no tengan que ver con el motivo de ingreso) y dar a luz, alrededor de 100. ...

19 de mayo de 2020 · Carlos J. Gil Bellosta

Un marco sobre el que reflexionar sobre el estudio de seroprevalencia ENECovid19

El ISCIII ha publicado los resultados preliminares del estudio de seroprevalencia ENECovid19. Es bueno leerlo en paralelo a esto, donde se analiza un estudio similar (aunque más pequeño) realizado hace un tiempo.

15 de mayo de 2020 · Carlos J. Gil Bellosta

La gramática del análisis explicativo interactivo de modelos

Así vendría a traducirse el título de este artículo, que trata de taxonomizar y sistematizar una serie de técnicas muy recientes para explicar modelos de caja negra. Tal vez no acabe siendo la manera pero, sin duda, acabará habiendo una.

14 de mayo de 2020 · Carlos J. Gil Bellosta

En defensa de Simón: variaciones diarias de la mortalidad

Qué cafres tenéis que ser para que tenga que salir yo —precisamente yo, que tantas cosas no buenas tengo para decir del buen hombre— en defensa de Simón. Tiene delito que de todo lo que se le pueda echar en cara os hayáis fijado en una intervención en la que os trataba de desasnar para que no le anduviéseis buscando tres pies a la varianza. Es un tema que vengo tratando de antiguo en estas páginas y de ello dan fe: ...

13 de mayo de 2020 · Carlos J. Gil Bellosta

¿Agregar antes de modelar?

El otro día me pasaron unos datos artificiales para poder probar el ajuste de cierto tipo de modelos. El autor de la simulación construyó tres conjuntos de pares (x,y) y luego los agregó (media de los y agrupando por x) antes de proporcionármelos. ¿Tiene sentido agregar antes de modelar? Incluso sin entrar en el problema del potencial número desigual de observaciones por punto (datos desbalanceados) o las heterogeneidades entre las distintas iteraciones (que nos llevaría al mundo de los modelos mixtos). ...

11 de mayo de 2020 · Carlos J. Gil Bellosta

¿42.000 muertes por coronavirus? Una corrección de la heterogeneidad

Publica hoy (cuando escribo) El Confidencial el artículo 42.000 muertes por covid: un estudio eleva la mortalidad un 76% sobre la cifra oficial citando el Estudio del exceso de mortalidad motivado por pandemia de Covid-19 de unos ingenieros de la UPM que corrige al alza los números de MoMo. El resumen es simple: MoMo no recoge todas las defunciones, solo las de los registros civiles informatizados. Aunque la cobertura sea del ~95% de la población española, hay diferencias grandes por CCAA (y aún más, aunque no haya cifras públicas al respecto, por provincia). Además, sucede casualmente que la cobertura es menor precisamente en las CCAA más afectadas. Ergo una regla de tres aplicada comunidad a comunidad, arroja necesariamente una estimación sustancialmente más elevada que las publicadas hasta la fecha. ...

4 de mayo de 2020 · Carlos J. Gil Bellosta

Muestreo, sensibilidad y especificidad

El bloque de código n_pop <- 47e6 prev <- .02 n_muestra <- 60e3 real_sensitivity <- .8 real_specificity <- .995 estimated_sensitivity <- .81 estimated_specificity <- .99 anuncia que vamos a hablar de: un país con una población no muy distinta de la de España que sufre una pandemia con una prevalencia del 2% en el que se realiza una selección de unos 60k sujetos para aplicárseles unas pruebas con una sensibilidad y especificidad que pueden o no ser las que anuncia su prospecto, supongo que para que dentro de unos años, cuando ya a nadie le importe, se publiquen unos datos que han guardado celosamente unos señores que mucho antes nos habrán regalado unos artículos científicos sobre el tema — necesariamente mediocres y que nos tendremos que creer— cuya publicación está garantizada por el mero hecho de que solo ellos tienen los CSVs mientras que la gente verdaderamente capaz, no. ...

27 de abril de 2020 · Carlos J. Gil Bellosta

Reducción de la dimensionalidad

está extraído de aquí.

22 de abril de 2020 · Carlos J. Gil Bellosta

Consensus clustering

No hay nada tan corrosivo para la fe en el clústering que probar una y otra vez k-medias (por ejemplo) sobre los mismos datos y ver cómo los resultados cambian drásticamente de ejecución en ejecución. Pero eso viene a ser, esencialmente, lo que hay detrás del consensus clústering (CC), una técnica que puede ser usada, entre otros fines, para determinar el número óptimo de grupos. La idea fundamental de la cosa es que observaciones que merezcan ser agrupadas juntas lo serán muy frecuentemente aunque cambien ligeramente las condiciones iniciales (por ejemplo, se tome una submuestra de los datos o cambien las condiciones iniciales de k-medias, por ejemplo). Si uno altera esas condiciones iniciales repetidas veces puede contar la proporción de las veces que las observaciones i y j fueron emparejadas juntas y crear la correspondiente matriz (simétrica, para más señas) $C(i,j)$. ...

14 de abril de 2020 · Carlos J. Gil Bellosta

Regresión tradicional vs multinivel

Ayer se leía en Twitter que "La regresión multinivel debería ser la forma predeterminada de hacer regresión" — Jose Luis Cañadas (@joscani) April 11, 2020 Cabe preguntarse qué pasa si se analizan los mismos datos usando ambas técnicas. Obviamente, hay muchos tipos de datos y supongo que los resultados variarán según qué variante se utilice. Aquí voy a centrarme en unos donde hay medidas repetidas de un factor aleatorio. También voy a situarme en un contexto académico, en el que interesan más las estimaciones de los efectos fijos, que en uno más próximo a mi mundo, la consultoría, donde son más relevantes las estimaciones regularizadas de los efectos aleatorios. ...

13 de abril de 2020 · Carlos J. Gil Bellosta