estadística pública

Del "Andalucía 'first'" al "La Rioja por doquier"

En este blog ya nos hemos graduado del “Andalucía first” (sí, esa reiterada manía a recordarnos que en Andalucía siempre hay más de todo lo que correlacione más o menos directamente con el número de habitantes). Aquí nos llama la atención otro efecto que afecta a los segundos momentos: el “La Rioja por doquier”. Verbigracia: Principado de Asturias (68,8%), La Rioja (35,5%) y Comunidad de Madrid (10,2%) registran los mayores aumentos anuales en el número de sociedades mercantiles creadas INE, un día cualquiera, en cualquier nota de prensa

Más sobre la anonimidad y reidentificación en ficheros de microdatos

Ha tenido cierta repercusión durante el verano el articulo Estimating the success of re-identifications in incomplete datasets using generative models, del que se han publicado resúmenes tales como Bastan tres datos para identificar a cualquiera en una base anónima. Cosa sobradamene conocida desde hace la tira. De hecho, se ha publicado esta herramienta para conocer tu riesgo de ser reidentificado, caso de que vivas en EEUU o el RU. ¿Y si vives en España?

A falta de escenarios, tenemos instituciones con atribuciones solapadas

Si yo fuera rey, expropiaría el edificio sito en el número 212 de la Castellana de Madrid, derruiría lo existente y construiría uno imagen especular de que es el que queda justo enfrente y que contiene eso que conocemos como Instituto Nacional de Estadística. Lo llamaría, por mantener la especularidad, ENI y lo poblaría de estadísticos con una misión: No hablar ni relacionarse bajo ningún concepto con los de enfrente.

Una cosa buena, una cosa mala

Que son la misma: esta. Comienzo por lo malo: ¿realmente necesitamos 17+1 INEs publicando la vistas de la misma información a través de 17+1 APIs, 17+1 paquetes de R y (17+1)*N mantenedores y desarrolladores? Lo bueno: tiene buena pinta y es encomiable tanto el esfuerzo de los autores como su vocación de servicio público. Nota: Espero que no enfaden demasiado el 50% de los juicios que he emitido a quien me ha enviado el enlace para su evaluación y posible difusión.

¿Tiene sentido plantearse un objetivo que no se puede medir?

Por ejemplo, el de la igualdad. Aquí un artículo en el que se dice que no y otro del mismo autor en el que se dice que sí (parece que todo se reduce a cuestiones metodológicas). Este tipo de cuestiones suelen zanjarse creando una metodología y encargando al INE su seguimiento. El INE, entonces, define desigualdad (para el caso) como aquello que mide nuestra metodología de medición de la desigualdad (fenómeno que llaman reificación y que consiste en sustituir la sustancia por el método).

Acerca del CIS y la cocina

Escribo hoy acerca del CIS y la cocina de la intención de voto. Lo hago desde la ignorancia informada en esos temas y sin pretensión alguna de ser o parecer más listo que otros. El CIS realiza unas encuestas (con un muestreo amplio y bien diseñado, cuentan), de las que obtiene, entre otras cosas, una serie de datos, $latex x$ que incluyen simpatía, recuerdo de voto, etc. Existe por otra parte un valor enteléquico, $latex y$, no siempre observable, que conocemos por resultados electorales si se votase hoy o algo parecido.

Recordatorio: ideas para futuros TFMs de "ciencia de datos"

Todos los años me toca proponer potenciales TFMs para mis alumnos de donde quiera que sean. Para no olvidarme, anoto aquí esta: bajar el histórico de barómetros del CIS (¿será posible?) y las preguntas que entran a la cocina de la intención de voto. Con ellas, crear un modelo que lo prediga. Bonus: identificar un cambio estructural tras la entrada de Tezanos al CIS.

Lecciones estadísticas que pueden extraerse de los disturbios de Lavapiés

Mi barrio ha sufrido una serie de sobresaltos provocados por la incontinencia de la plebe frumentaria a raíz de la muerte por infarto de un mantero. Ha salido en las noticias y no merece la pena abundar en ello. Y no mencionaría el asunto salvo porque el otro día, de casualidad, advertí que el antedicho mantero y yo compartimos sección censal. Lo cual invita a una reflexión de corte estadístico. Porque las secciones censales son las unidades más básicas de las que existe información estadística (número de personas, distribución por sexos, edades, etc.

Secciones censales en la Wikipedia

Era una vergüenza que tantos de nosotros estemos dándole vueltas periódicamente al concepto de sección censal y este no tenga una mala entrada en la Wikipedia. O no la tenía hasta que creé un microartículo en ella. Estoy seguro que muchos de los lectores de estas páginas saben más (y a ciencia cierta; y pueden, además, encontrar la fuente donde aparece propiamente escrito por la autoridad pertinente) sobre el asunto que lo que aparece ahí reflejado.

PIB y progreso: ¿mide lo que debe medir?

Anoche me busqué a mí mismo en el Registro Mercantil. Sudé la gota gorda y cuando me encontré, es decir, recibí una notificación de que mis registros habían sido ubicados por el buscador, me apareció una aviso: si quería proceder a ver los resultados de la búsqueda tenía que abonar 1.78 euros (creo). Así que si pierdo 20 minutos de mi vida en una seudopágina que me quiere cobrar casi dos euros por información que yo le he proporcionado, el PIB español crece en 1.

Encuestas, censos, elecciones

Hace unas semanas tuve un lapso de creatividad. Dejé de escribir durante un tiempo y me dediqué al sucedáneo: leer. Terminé, para variar, unos cuantos libros. Uno de ellos es Proofiness, the Dark Arts of Mathematical Deception que está más o menos bien. En su mayor parte abunda sobre fenómenos conocidos, estudiados y sobradamente denunciados: que hay que recurre a argumentos basados en números, estadísticas o construcciones matemáticas más o menos sofisticadas para dar visos de verdad a mentiras flagrantes.

Sobre la subida del paro registrado en agosto

Sí, se acaba de publicar el dato de agosto. A unos les parece bien y a otros mal. Nada nuevo bajo el sol. La pregunta (cuya relevancia ignoro) es: ¿cómo varía el paro registrado entre julio y agosto? ¿Es normal dentro de la serie histórica? Los datos del SEPE se remontan al 2001 y, pintados, son ¿Mi opinión? No sé si decir “ni fú ni fá”, “regresión a la media” o ambas (si es que son distintas).

Explorando la desigualdad en Medialab-Prado

Hay una convocatoria abierta en Medialab-Prado para proponer (primero) y desarrollar (más tarde) proyectos que exploren la desigualdad. Los detalles están en el enlace anterior pero traslado aquí los más urgentes: Los talleres se desarrollarán del 23 al 25 de octubre y del 11 al 13 de diciembre de 2015. La convocatoria está abierta del 15 de julio al 15 de septiembre. Supongo que conocéis el chiste del estadístico y el pollo: que si una persona se come uno y otra ninguno, vendrá aquel y dirá que ambos comieron [en promedio] medio.