ine

¿Una nueva afición para los próximos 10-15 años?

Ayer estuve disfrutando como un enano leyendo On the Mathematical Foundations of Theoretical Statistics del nunca suficientemente encarecido Sir Ronald Fisher. Y me fijé que fue publicado en 1922. En él se cita —y nada elogiosamente, hay que decirlo— el A Treatise on Probability de Keynes, que fue, a su vez, publicado en 1921. Aquellas cosas que constituyen el temario de las oposiciones al INE se estaban escribiendo hace cien años.

Mi mapa provincial favorito

Mi mapa provincial de España favorito es este: O, en una versión más cruda, Cosas sobre él: Forma parte de la colección de mapas que provee el INE para su uso con en infausto PCAxis y puede descargarse de aquí (junto con muchos otros, casi todos convencionales y aburridos, mapas de España, sus regiones, provincias y municipios). Para facilitar su uso y, probablemente, infringiendo normas sobre la propiedad intelectual u otras, lo he colgado también aquí.

Todavía más sobre las proyecciones de población a largo plazo del INE

Ese es otro capítulo más de lo que se está convirtiendo en toda una saga en este blog: véase esto, esto, esto o los enlaces de todas esas entradas. El presente está motivado por parrafitos como No obstante, en términos absolutos los aumentos se concentrarán, sobre todo, en la Comunidad de Madrid (donde residirán 614.049 personas más que ahora) […] y otros del mismo cariz que pueden encontrarse en el documento España 2050 recientemente publicado.

Usa uno u otro mapa, según tus intereses

El primero, El mapa de la renta de los españoles, calle a calle. Puedes ver en él (haciendo un poco de zum) cosas como que la renta per cápita de la zona más fina de Alcobendas, La Moraleja, dizque es de poco más de 29 k€. El segundo, Matadepera y Pozuelo de Alarcón, los municipios más ricos de España. Encuentre la renta media de su localidad, donde uno aprende cosas como que la renta per cápita media de Alcobendas (promediando las zonas pobres con las ricas mencionadas más arriba) es de 45 k€.

Un extracto del documento metodológico de las proyecciones de población del INE

Está extraído de aquí y dice los siguiente: Las Proyecciones de Población constituyen una simulación estadística de la población que residiría en España, sus comunidades autónomas y provincias en los próximos años, así como de la evolución de cada uno de los fenómenos demográficos básicos asociados, en caso de mantenerse las tendencias y comportamientos demográficos actualmente observados. Para interpretar correctamente los resultados de las Proyecciones de Población es importante distinguir entre previsiones y proyecciones demográficas.

Este es uno de los pecados estadísticos que menos indulgencia suscita

INE, Proyecciones de Población 2020-2070 (enlace) Nota para desavisados: ¿veis cómo se comporta la varianza antes/después? Otra nota: la publicación de las proyecciones de población del INE es casi todos los años motivo de recochineo bloguero. Buscad (p.e., aquí) y encontraréis. Nota final: Sí, sí, una proyección es lo que ocurriría si se mantuvieran las tendencias actuales. Eso os dirán. Precisamente por eso, esta entrada y el gráfico de más arriba.

Recordatorio: no olvidéis restar los fallecimientos atribuibles al calor en la estimación del efecto de la "segunda ola"

La estimación de la mortalidad atribuible a la gripe estacional (que no, que no se hace consultando la causa de muerte que consignan los médicos medio al buen tuntún por motivos administrativos y que luego recoge el INE, como parece que dan a entender estos beneméritos verificadores para la confusión de quienes den su palabra por buena) tiene una complicación sustancial: ocurre simultánea y co-casualmente con el frío, que incrementa las defunciones por motivos otros.

¿CDO de, p.e., España? Nah...

Dizque hace falta un CDO (chief data officer) de esa parte de España que es el estado español (aunque no sabemos si con autoridad solo dentro de la administración central o también en sus tentáculos semiautónomos) porque es una figura con creciente importancia en las empresas y con un rol muy definido en ellas. Aquí voy a argumentar a la contra introduciendo un elemento de sospecha en esa aparentemente sencilla y automática traslación de roles entre la empresa privada y una cosa tan pantagruélica y aparatosa como la administración de un estado.

Sobre la muy necesaria "Oficina del Dato"

Hace no tanto propuse la creación de un segundo INE axialmente (eje: la Castellana) simétrico al actualmente existente que elaborase un segundo censo, una segunda EPA, etc. por lo mucho que podríamos aprender acerca de la varianza (y los límites de la estadística) gracias a la simultánea publicación de parejas de cifras oficiales desiguales. Pero alguien en el brazo largo de la palanca debió leerme sin advertir que iba de coña y me hizo caso.

¿Un "Instituto Nacional de Datos"?

Por motivos que algún día contaré, me está tocando leer una serie de documentos muy bizarros (en su acepción bárbara). De entre todos, el que se lleva la palma es el titulado Estrategia Española de I+D+I en Inteligencia Artificial, promovido por el ministerio del ramo y elaborado por la Secretaría General de Coordinación de Política Científica del Ministerio de Ciencia, Innovación y Universidades y el Grupo de Trabajo en Inteligencia Artificial GTIA.

El incentivo perverso

Viene a cuenta de este tuit, Desde el @CSIC, Diego Ramiro sugiere que la producción de estadísticas de salud recaiga en un organismo especializado similar al INE: “Centrado en la producción y no en la investigación, lo que agilizaría que los datos estén disponibles”. https://t.co/mB0axlvMbz vía @el_pais — Demografía (CSIC) (@Demografia_CSIC) July 11, 2020 que hace referencia a este parrafito en el artículo enlazado: Quizás lo más grave es que el acceso a los datos está siendo restringido incluso entre científicos.

53 (o, ¿cuál es la prior?)

En la documentación técnica del estudio ENE-COVID19 (recuérdese: INE + ISCIII) se describe un estudio de fiabilidad previo del test rápido (sección A1.2) que se anuncia así: Según el fabricante, el test tiene una sensibilidad del 88% y 97% para determinar IgM e IgG respectivamente, y una especificidad de 100% frente a ambos isótopos. Para comprobar el comportamiento del test elegido, se han llevado a cabo dos estudios de fiabilidad.

De histogramas a distribuciones (usando la de Burr)

Tengo una entrada perpetuamente pendiente que se pospone, entre otras cosas, porque aún no he encontrado una manera satisfactoria para muestrear histogramas. Una de las vías sería dar con (y ajustar) una distribución subyacente que generase unos histogramas similares. Hoy voy a contar un ejemplo de cómo puede fallar tal estrategia. Por un lado he bajado datos de la distribución de renta en España del INE: Por otro, me he dejado convencer temporalmente de que la distribución de Burr podría ser conveniente para modelar la distribución de ingresos de los hogares (Wikipedia dixit!