Ine

¿CDO de, p.e., España? Nah...

Dizque hace falta un CDO (chief data officer) de esa parte de España que es el estado español (aunque no sabemos si con autoridad solo dentro de la administración central o también en sus tentáculos semiautónomos) porque es una figura con creciente importancia en las empresas y con un rol muy definido en ellas.

Aquí voy a argumentar a la contra introduciendo un elemento de sospecha en esa aparentemente sencilla y automática traslación de roles entre la empresa privada y una cosa tan pantagruélica y aparatosa como la administración de un estado. Al menos, en lo que concierne a un CDO con poderes ejecutivos, es decir, con potestad para pedir que algo sea hecho y que, efectivamente, se haga.

Sobre la muy necesaria "Oficina del Dato"

Hace no tanto propuse la creación de un segundo INE axialmente (eje: la Castellana) simétrico al actualmente existente que elaborase un segundo censo, una segunda EPA, etc. por lo mucho que podríamos aprender acerca de la varianza (y los límites de la estadística) gracias a la simultánea publicación de parejas de cifras oficiales desiguales.

Pero alguien en el brazo largo de la palanca debió leerme sin advertir que iba de coña y me hizo caso. Así, en uno de los últimos BOEs, se nos comunica que:

¿Un "Instituto Nacional de Datos"?

Por motivos que algún día contaré, me está tocando leer una serie de documentos muy bizarros (en su acepción bárbara). De entre todos, el que se lleva la palma es el titulado Estrategia Española de I+D+I en Inteligencia Artificial, promovido por el ministerio del ramo y elaborado por la Secretaría General de Coordinación de Política Científica del Ministerio de Ciencia, Innovación y Universidades y el Grupo de Trabajo en Inteligencia Artificial GTIA.

El incentivo perverso

Viene a cuenta de este tuit,

que hace referencia a este parrafito en el artículo enlazado:

Quizás lo más grave es que el acceso a los datos está siendo restringido incluso entre científicos. “Desde el principio solicitamos información desagregada por municipio y franjas de edad al Instituto Carlos III —explica Manrubia—. Recibimos la respuesta de que se estaban revisando y que pronto se harían públicos. Todavía no lo son. La opacidad en los datos sonaba a ocultismo”. También Diego Ramiro, del Instituto de Economía, Geografía y Demografía del CSIC, describe una experiencia similar después de haber solicitado datos al ISCIII sin éxito: “No podrán dar respuesta por el poco personal que tienen”.

53 (o, ¿cuál es la prior?)

En la documentación técnica del estudio ENE-COVID19 (recuérdese: INE + ISCIII) se describe un estudio de fiabilidad previo del test rápido (sección A1.2) que se anuncia así:

Según el fabricante, el test tiene una sensibilidad del 88% y 97% para determinar IgM e IgG respectivamente, y una especificidad de 100% frente a ambos isótopos. Para comprobar el comportamiento del test elegido, se han llevado a cabo dos estudios de fiabilidad.

Veamos en qué consisten.

De histogramas a distribuciones (usando la de Burr)

Tengo una entrada perpetuamente pendiente que se pospone, entre otras cosas, porque aún no he encontrado una manera satisfactoria para muestrear histogramas. Una de las vías sería dar con (y ajustar) una distribución subyacente que generase unos histogramas similares.

Hoy voy a contar un ejemplo de cómo puede fallar tal estrategia.

Por un lado he bajado datos de la distribución de renta en España del INE:

Por otro, me he dejado convencer temporalmente de que la distribución de Burr podría ser conveniente para modelar la distribución de ingresos de los hogares (Wikipedia dixit!).

Análisis (bayesiano) de pruebas con sensibilidad/especificidad desconocida

Esto tiene que ver con lo del estudio ENECOVID, por supuesto.

Esto tiene que ver con los ajustes que hay que realizar en los resultados por la menos que perfecta sensibilidad y especificidad.

Porque no basta con lo que diga el prospecto de los kits chinos.

Por eso es recomendable leer Bayesian analysis of tests with unknown specificity and sensitivity.

Coda: Cuando era matemático y comencé a estudiar estadística, me llamaba mucho la atención (por no decir que me escandalizaba) la alegría con la que estimadores sujetos a error de un modelo se insertaban como verdad divina en otro. Que es lo que aparentemente se hace cuando el estimador puntual de sensibilidad y especificidad copipega tal cual en las fórmulas del ajuste.

Sobre lo de "publicar cuando ya no hace falta"

El otro día escribí (véase también esto):

Y mirad:

Defunciones: INE vs MoMo

[Fe de errores: en varias secciones de lo que sigue se hace referencia a 2018 como año completo. En realidad, solo se están usando los datos de los trimestres 2, 3 y 4 de 2018, que es en los que hay solapamiento entre los datos del INE y de MoMo.]

Es un error tomar las cifras de MoMo literalmente. Está explicado por doquier: MoMo no es el INE sino un sistema de alerta temprana por mortalidad. MoMo es el mejor sistema rápido que existe. El INE es lento (a día de hoy, solo tiene disponibles resultados provisionales de mortalidad del la primera mitad de 2019).