Ine

El incentivo perverso

Viene a cuenta de este tuit,

que hace referencia a este parrafito en el artículo enlazado:

Quizás lo más grave es que el acceso a los datos está siendo restringido incluso entre científicos. “Desde el principio solicitamos información desagregada por municipio y franjas de edad al Instituto Carlos III —explica Manrubia—. Recibimos la respuesta de que se estaban revisando y que pronto se harían públicos. Todavía no lo son. La opacidad en los datos sonaba a ocultismo”. También Diego Ramiro, del Instituto de Economía, Geografía y Demografía del CSIC, describe una experiencia similar después de haber solicitado datos al ISCIII sin éxito: “No podrán dar respuesta por el poco personal que tienen”.

53 (o, ¿cuál es la prior?)

En la documentación técnica del estudio ENE-COVID19 (recuérdese: INE + ISCIII) se describe un estudio de fiabilidad previo del test rápido (sección A1.2) que se anuncia así:

Según el fabricante, el test tiene una sensibilidad del 88% y 97% para determinar IgM e IgG respectivamente, y una especificidad de 100% frente a ambos isótopos. Para comprobar el comportamiento del test elegido, se han llevado a cabo dos estudios de fiabilidad.

Veamos en qué consisten.

De histogramas a distribuciones (usando la de Burr)

Tengo una entrada perpetuamente pendiente que se pospone, entre otras cosas, porque aún no he encontrado una manera satisfactoria para muestrear histogramas. Una de las vías sería dar con (y ajustar) una distribución subyacente que generase unos histogramas similares.

Hoy voy a contar un ejemplo de cómo puede fallar tal estrategia.

Por un lado he bajado datos de la distribución de renta en España del INE:

Por otro, me he dejado convencer temporalmente de que la distribución de Burr podría ser conveniente para modelar la distribución de ingresos de los hogares (Wikipedia dixit!).

Análisis (bayesiano) de pruebas con sensibilidad/especificidad desconocida

Esto tiene que ver con lo del estudio ENECOVID, por supuesto.

Esto tiene que ver con los ajustes que hay que realizar en los resultados por la menos que perfecta sensibilidad y especificidad.

Porque no basta con lo que diga el prospecto de los kits chinos.

Por eso es recomendable leer Bayesian analysis of tests with unknown specificity and sensitivity.

Coda: Cuando era matemático y comencé a estudiar estadística, me llamaba mucho la atención (por no decir que me escandalizaba) la alegría con la que estimadores sujetos a error de un modelo se insertaban como verdad divina en otro. Que es lo que aparentemente se hace cuando el estimador puntual de sensibilidad y especificidad copipega tal cual en las fórmulas del ajuste.

Sobre lo de "publicar cuando ya no hace falta"

El otro día escribí (véase también esto):

Y mirad:

Defunciones: INE vs MoMo

[Fe de errores: en varias secciones de lo que sigue se hace referencia a 2018 como año completo. En realidad, solo se están usando los datos de los trimestres 2, 3 y 4 de 2018, que es en los que hay solapamiento entre los datos del INE y de MoMo.]

Es un error tomar las cifras de MoMo literalmente. Está explicado por doquier: MoMo no es el INE sino un sistema de alerta temprana por mortalidad. MoMo es el mejor sistema rápido que existe. El INE es lento (a día de hoy, solo tiene disponibles resultados provisionales de mortalidad del la primera mitad de 2019).

¿Deberían publicarse datos "en beta"?

Cuando vivía en Tailandia solía decir sobre la cultura corporativa de ese país que daba igual que las cosas se hiciesen bien o mal con tal de que se hiciesen tarde.

INE, CIS, ISCIII, etc., son un poco mejores: da igual que los datos se publiquen cuando ya no hacen falta con tal de que sean perfectos.

La pregunta es: ¿deberían publicarse datos imperfectos y con caveats pronto?

Nota: Eso ya se hace con indicadores importantes (véase esto).

¿En primavera? ¿En serio? Ni de coña

Hubo un tiempo en el que había que hacer caso a Aristóteles. Era lo que se esperaba de toda persona culta de la época. Así que, supongo, o te fiabas de lo que ven tus propios ojos o dabas por bueno que las mujeres tenían menos dientes.

Hoy nos piden que hagamos caso de nuestras autoridades sanitarias. Incluso, supongo, cuando dicen que el periodo más bajo de mortalidad en España ocurre en primavera (fuente).

La causa de muerte no es la causa de muerte

[Este es un aviso para todos aquellos que depositan una excesiva fe en lo que nos cuenta el INE.]

La causa de muerte no es la causa de muerte. Al menos, necesariamente. Lo que el INE llama causa de muerte es una imagen distorsionada de la causa de muerte por culpa de un embudo administrativo.

Comiendo con unos epidemiólogos en el ISCIII hace un tiempo, me decían, con cierta envidia, cómo en otros países como Dinamarca, se registraban hasta ocho causas de muerte: la última, la concomitante, la… Y bromeaban diciendo que, al final, todos nos morimos de parada cardiorrespiratoria.

La población envejece pero, ¿envejecen también los grupos de edad?

La pregunta es relevante porque en demografía, epidemiología y otras disciplinas entre las que no se suele contar la economía, se suele agrupar la población en grupos de edad (y/u otras variables relevantes). Son habituales los grupos de edad quinquenales y la pregunta es: ¿son homogéneos dichos grupos de edad a lo largo del tiempo?

No es una pregunta baladí: ha dado lugar a noticias como Why So Many White American Men Are Dying que no, no se explican por la desesperación o por la epidemia de opioides sino por el envejecimiento relativo de los grupos de edad en cuestión. En EE.UU., claro, no en España.

Voy a demostrar (con la ayuda del INE) que Airbnb no existe

Tan vasto es el fenómeno Airbnb que malo será no haya dejado traza en las estadísticas oficiales. Que como oficiales, son verdad.

No podemos hacer caso a las estadísticas de ocupación hotelera del INE porque son de lo de que dicen: hoteles (y asimilados). Airbnb tiene que dejarse notar en otra parte.

¿Cuál? Frontur, la estadística de movimientos turísticos en frontera del INE. (Sin enlace: los enlaces del INE van y vienen). Las cifras de Frontur proceden de encuestas a turistas que salen de España a los que se somete a un cuestionario y cuyos resultados se extrapolan al total de la población extranjera que circulan por las fronteras. Así que, a diferencia de la estadística de ocupación hotelera (donde el INE solo adquiere información de turistas que pernoctan en hoteles), en esta encuesta son los turistas, independientemente de donde hayan dormido, los que dicen dónde lo hicieron. Y los resultados son estos:

A falta de escenarios, tenemos instituciones con atribuciones solapadas

Si yo fuera rey, expropiaría el edificio sito en el número 212 de la Castellana de Madrid, derruiría lo existente y construiría uno imagen especular de

que es el que queda justo enfrente y que contiene eso que conocemos como Instituto Nacional de Estadística. Lo llamaría, por mantener la especularidad, ENI y lo poblaría de estadísticos con una misión:

  • No hablar ni relacionarse bajo ningún concepto con los de enfrente.
  • Replicar sus estadísticas, proyecciones, encuestas y censos en el mismo plazo y forma pero independientemente de ellos.

Así tendríamos dos censos, dos EPAs, dos brechas salariales, dos de cada cosa. Y una mínima estimación de la varianza de las cosas y de su error (muestral y demás).