Estadística Pública

Unos números sobre los márgenes de la distribución

Estos días han estado tirios y troyanos tirándose los muebles a la cabeza por el asunto de los márgenes comerciales; en particular, los de frutas y verduras en los supermercados. Constantando lo desencaminados que andan muchos y como sobre el asunto he podido aprender un poco durante mi carrera, oso hoy presentar algunos conceptos y números para centrar el debate. Al final, tal vez me atreva a publicar mi propia opinión sobre el asunto. De hacerlo, advertiré convenientemente a los lectores para que puedan omitirlo felizmente.

Sobre la interpretación de los indicadores económicos

The Economist tiene a bien publicar una serie de tablas comparativas de los indicadores económicos más importantes de las distintas economías. Si uno se fija en la fila de Tailandia verá que sistemáticamente tiene unas cifras de desempleo ridículas. Por ejemplo, es el 0.9% en la última edición.

Pero, ¿es Tailandia el paraíso en la tierra para los trabajadores? Me temo que no. ¿Se calcula entonces allí la tasa de desempleo de alguna manera particular y sesgada? Tampoco: se trata de un indicador que se construye usando una metodología uniforme en todas partes.

Nueva (y espero que última) versión de MicrodatosEs

R

El otro día visité el museo de ciencias naturales de Madrid. Constaté que aún no he perdido mi extraño interés por esas pocas especies que dizque convivieron con los dinosaurios. MicrodatosEs es casi una criatura de esa época. No tanto, pero casi.

Me sorprende, de hecho, que tuviese algún usuario; que este, además, encontrase un bug y que, finalmente, diese noticia de él. La versión que lo soluciona es la que ahora figura y ocupa espacio en CRAN.

Sobre los retos asociados a la "stealthflation"

Estoy aficionándome a usar el Chatbot Arena como intefaz para utilizar LLMs. No solo te da acceso a algunos de los más potentes, sino que te lo ofrecen en pares (y uno puede puntuar las respuestas para elaborar posteriormente un ránking ELO de todos ellos).

Y resulta que al preguntarles qué cosa es la stealthflation, gpt-4-turbo me ha dado prácticamente el resumen de lo que quería exponer en presente entrada. Con mi traducción,

Nivel de estudios: padres vs hijos

Navegando —y no por capricho— por esa gran pila de estiércol que es la parte visible de la estadística pública española (es decir, tablas, series, etc. publicados por distintos organismos públicos) he tropezado con unos datos que puede que interesen a alguien.

Proceden de la Encuesta de Características Esenciales de la Población y las Viviendas del año 2021 y se refieren a la comparación del nivel educativo de padres e hijos. Oficialmente se refiere a personas de 16 años o más, por lo que a muchos de los hijos no les habrá dado tiempo de ponerse al nivel de los padres, aunque también es posible obtener datos para determinadas franjas etarias.

Estadísticas creativas: el "peso del paro"

Mirad que trato de abstraerme del mundanal ruido y de las marcianadas de tirios y troyanos. Me he comprado una segunda EPS32, le he instalado Micropython y solo aspiro a que se me deje en paz.

Pero como me ronda en la cabeza escribir algún día cosas en serio sobre sofística estadística, no he podido dejar de lado mis otros entretenimientos un rato para comentar esto:

Los dos gráficos que lo acompañan son:

Del "Andalucía 'first'" al "La Rioja por doquier"

En este blog ya nos hemos graduado del “Andalucía first” (sí, esa reiterada manía a recordarnos que en Andalucía siempre hay más de todo lo que correlacione más o menos directamente con el número de habitantes).

Aquí nos llama la atención otro efecto que afecta a los segundos momentos: el “La Rioja por doquier”. Verbigracia:

Principado de Asturias (68,8%), La Rioja (35,5%) y Comunidad de Madrid (10,2%) registran los mayores aumentos anuales en el número de sociedades mercantiles creadas INE, un día cualquiera, en cualquier nota de prensa

Más sobre la anonimidad y reidentificación en ficheros de microdatos

Ha tenido cierta repercusión durante el verano el articulo Estimating the success of re-identifications in incomplete datasets using generative models, del que se han publicado resúmenes tales como Bastan tres datos para identificar a cualquiera en una base anónima. Cosa sobradamene conocida desde hace la tira.

De hecho, se ha publicado esta herramienta para conocer tu riesgo de ser reidentificado, caso de que vivas en EEUU o el RU.

¿Y si vives en España? Siempre puedes leer esto, de lo que ya hablé (y resumí) aquí.

A falta de escenarios, tenemos instituciones con atribuciones solapadas

Si yo fuera rey, expropiaría el edificio sito en el número 212 de la Castellana de Madrid, derruiría lo existente y construiría uno imagen especular de

que es el que queda justo enfrente y que contiene eso que conocemos como Instituto Nacional de Estadística. Lo llamaría, por mantener la especularidad, ENI y lo poblaría de estadísticos con una misión:

  • No hablar ni relacionarse bajo ningún concepto con los de enfrente.
  • Replicar sus estadísticas, proyecciones, encuestas y censos en el mismo plazo y forma pero independientemente de ellos.

Así tendríamos dos censos, dos EPAs, dos brechas salariales, dos de cada cosa. Y una mínima estimación de la varianza de las cosas y de su error (muestral y demás).

Una cosa buena, una cosa mala

Que son la misma: esta.

Comienzo por lo malo: ¿realmente necesitamos 17+1 INEs publicando la vistas de la misma información a través de 17+1 APIs, 17+1 paquetes de R y (17+1)*N mantenedores y desarrolladores?

Lo bueno: tiene buena pinta y es encomiable tanto el esfuerzo de los autores como su vocación de servicio público.

Nota: Espero que no enfaden demasiado el 50% de los juicios que he emitido a quien me ha enviado el enlace para su evaluación y posible difusión. Sepa que lo tengo en grande estima y que me consta responsable de mucho de la parte buena y casi nada de la mala.

¿Tiene sentido plantearse un objetivo que no se puede medir?

Por ejemplo, el de la igualdad. Aquí un artículo en el que se dice que no y otro del mismo autor en el que se dice que sí (parece que todo se reduce a cuestiones metodológicas).

Este tipo de cuestiones suelen zanjarse creando una metodología y encargando al INE su seguimiento. El INE, entonces, define desigualdad (para el caso) como aquello que mide nuestra metodología de medición de la desigualdad (fenómeno que llaman reificación y que consiste en sustituir la sustancia por el método). Lo mismo pasa con el desempleo, el PIB y tantas otras magnitudes.

Acerca del CIS y la cocina

Escribo hoy acerca del CIS y la cocina de la intención de voto. Lo hago desde la ignorancia informada en esos temas y sin pretensión alguna de ser o parecer más listo que otros.

El CIS realiza unas encuestas (con un muestreo amplio y bien diseñado, cuentan), de las que obtiene, entre otras cosas, una serie de datos, $latex x$ que incluyen simpatía, recuerdo de voto, etc. Existe por otra parte un valor enteléquico, $latex y$, no siempre observable, que conocemos por resultados electorales si se votase hoy o algo parecido. La llamada cocina es simplemente una función $latex f$ tal que $latex \hat{y} = f(x)$ es próxima a $latex y$. Esta función se construye gracias a que históricamente, cada vez que se convocan elecciones, se han observado parejas $latex (x, y)$.

Recordatorio: ideas para futuros TFMs de "ciencia de datos"

Todos los años me toca proponer potenciales TFMs para mis alumnos de donde quiera que sean. Para no olvidarme, anoto aquí esta: bajar el histórico de barómetros del CIS (¿será posible?) y las preguntas que entran a la cocina de la intención de voto. Con ellas, crear un modelo que lo prediga.

Bonus: identificar un cambio estructural tras la entrada de Tezanos al CIS.