En la documentación técnica del estudio ENE-COVID19 (recuérdese: INE + ISCIII) se describe un estudio de fiabilidad previo del test rápido (sección A1.2) que se anuncia así:
Según el fabricante, el test tiene una sensibilidad del 88% y 97% para determinar IgM e IgG respectivamente, y una especificidad de 100% frente a ambos isótopos. Para comprobar el comportamiento del test elegido, se han llevado a cabo dos estudios de fiabilidad.
Tengo una entrada perpetuamente pendiente que se pospone, entre otras cosas, porque aún no he encontrado una manera satisfactoria para muestrear histogramas. Una de las vías sería dar con (y ajustar) una distribución subyacente que generase unos histogramas similares.
Hoy voy a contar un ejemplo de cómo puede fallar tal estrategia.
Por un lado he bajado datos de la distribución de renta en España del INE:
Por otro, me he dejado convencer temporalmente de que la distribución de Burr podría ser conveniente para modelar la distribución de ingresos de los hogares (Wikipedia dixit!
Esto tiene que ver con lo del estudio ENECOVID, por supuesto.
Esto tiene que ver con los ajustes que hay que realizar en los resultados por la menos que perfecta sensibilidad y especificidad.
Porque no basta con lo que diga el prospecto de los kits chinos.
Por eso es recomendable leer Bayesian analysis of tests with unknown specificity and sensitivity.
Coda: Cuando era matemático y comencé a estudiar estadística, me llamaba mucho la atención (por no decir que me escandalizaba) la alegría con la que estimadores sujetos a error de un modelo se insertaban como verdad divina en otro.
El ISCIII ha publicado los resultados preliminares del estudio de seroprevalencia ENECovid19.
Es bueno leerlo en paralelo a esto, donde se analiza un estudio similar (aunque más pequeño) realizado hace un tiempo.
El otro día escribí (véase también esto):
Un buen día, cuando lo del confinamiento sea un lejano recuerdo, se publicarán finalmente los resultados del estudio de prevalencia del coronavirus del ISCIII/INE perfectamente tabuladitos.
— Carlos Gil Bellosta (@gilbellosta) April 24, 2020 Y mirad:
[Fe de errores: en varias secciones de lo que sigue se hace referencia a 2018 como año completo. En realidad, solo se están usando los datos de los trimestres 2, 3 y 4 de 2018, que es en los que hay solapamiento entre los datos del INE y de MoMo.]
Es un error tomar las cifras de MoMo literalmente. Está explicado por doquier: MoMo no es el INE sino un sistema de alerta temprana por mortalidad.
Cuando vivía en Tailandia solía decir sobre la cultura corporativa de ese país que daba igual que las cosas se hiciesen bien o mal con tal de que se hiciesen tarde.
INE, CIS, ISCIII, etc., son un poco mejores: da igual que los datos se publiquen cuando ya no hacen falta con tal de que sean perfectos.
La pregunta es: ¿deberían publicarse datos imperfectos y con caveats pronto?
Nota: Eso ya se hace con indicadores importantes (véase esto).
Hubo un tiempo en el que había que hacer caso a Aristóteles. Era lo que se esperaba de toda persona culta de la época. Así que, supongo, o te fiabas de lo que ven tus propios ojos o dabas por bueno que las mujeres tenían menos dientes.
Hoy nos piden que hagamos caso de nuestras autoridades sanitarias. Incluso, supongo, cuando dicen que el periodo más bajo de mortalidad en España ocurre en primavera (fuente).
[Este es un aviso para todos aquellos que depositan una excesiva fe en lo que nos cuenta el INE.]
La causa de muerte no es la causa de muerte. Al menos, necesariamente. Lo que el INE llama causa de muerte es una imagen distorsionada de la causa de muerte por culpa de un embudo administrativo.
Comiendo con unos epidemiólogos en el ISCIII hace un tiempo, me decían, con cierta envidia, cómo en otros países como Dinamarca, se registraban hasta ocho causas de muerte: la última, la concomitante, la… Y bromeaban diciendo que, al final, todos nos morimos de parada cardiorrespiratoria.
La pregunta es relevante porque en demografía, epidemiología y otras disciplinas entre las que no se suele contar la economía, se suele agrupar la población en grupos de edad (y/u otras variables relevantes). Son habituales los grupos de edad quinquenales y la pregunta es: ¿son homogéneos dichos grupos de edad a lo largo del tiempo?
No es una pregunta baladí: ha dado lugar a noticias como Why So Many White American Men Are Dying que no, no se explican por la desesperación o por la epidemia de opioides sino por el envejecimiento relativo de los grupos de edad en cuestión.
Tan vasto es el fenómeno Airbnb que malo será no haya dejado traza en las estadísticas oficiales. Que como oficiales, son verdad.
No podemos hacer caso a las estadísticas de ocupación hotelera del INE porque son de lo de que dicen: hoteles (y asimilados). Airbnb tiene que dejarse notar en otra parte.
¿Cuál? Frontur, la estadística de movimientos turísticos en frontera del INE. (Sin enlace: los enlaces del INE van y vienen).
Si yo fuera rey, expropiaría el edificio sito en el número 212 de la Castellana de Madrid, derruiría lo existente y construiría uno imagen especular de
que es el que queda justo enfrente y que contiene eso que conocemos como Instituto Nacional de Estadística. Lo llamaría, por mantener la especularidad, ENI y lo poblaría de estadísticos con una misión:
No hablar ni relacionarse bajo ningún concepto con los de enfrente. Replicar sus estadísticas, proyecciones, encuestas y censos en el mismo plazo y forma pero independientemente de ellos.
La nota de prensa que acompaña a los resultados definitivos de la EES de 2014 reza:
El salario bruto medio anual fue de 22.858,17 euros por trabajador en el año 2014, un 0,7% superior al del año anterior.
Para poder replicar esa cifra y poder comparar manzanas con manzanas hay que preprocesar los datos crudos de la EES así:
library(MicroDatosEs) dat <- ees2010("md_EES_2014.txt") # Días año dat$DIASRELABA <- dat$DRELABAM * 30.