Epa

rOpenSpain: ahí tiro el guante

La gente de rOpenSci hace cosas a las que merece la pena atento. Tanto por los objetivos como por medios y las formas. Recomiendo seguir sus últimas publicaciones acerca de la profesionalización del proceso de desarrollo de código.

Llevo unos meses jugando con una idea inspirada por rOpenSci: crear un respositorio y un consorcio más o menos formal que desarrolle, mantenga y mejore herramientas (en R) de interés para el procesamiento y análisis de datos ya no científicos sino españoles. Hablo, obviamente, de INE (EPA, EPF, censo, padrón,…), CIS (barómetros, etc.), IGN (Siane,…), encuestas electorales, etc.

¿13.100 más/menos cuántos parados menos?

¿Cuál es la cifra de variación del número de parados de la que hablan la última EPA y los medios? 13100.

¿Más menos cuánto? Según el INE, el error de muestreo relativo, $latex \sqrt{V(\hat{\sigma}}$ a nivel nacional en términos porcentuales es

error_relativo

Es decir, el intervalo de confianza para la cifra de parados tendría una anchura como de 100k sujetos. Obviamente, eso impide calcular variaciones de un orden de magnitud menor.

Ruido en las estadísticas oficiales

Hacía tiempo que no hablaba de este tema. Pero han salido de mi LIFO de artículos potencialmente interesantes dos a los que merece la pena echar un ojo. El primero, este, arranca con

Government statistical agencies commonly report official economic statistics as point estimates. Agency documents describing data and methods may acknowledge that estimates are subject to error, but they typically do not quantify error magnitudes. News releases present estimates with little if any mention of potential error.

Ni-nis y estados transitorios

Imaginemos un país feliz en el que mucha gente trabaja durante dos años y luego se toma un mes para buscar otro trabajo mejor. ¿Cuál sería su tasa de paro? Del 4 %: la gente pasaría en el paro uno de cada 25 meses. Ese estado transitorio de un mes se manifestaría así en la EPA de dicho país, como un stock de desempleados.

Descrita como flujo, la situación parecería propicia. Descrita como stock, habría quien le pusiera pegas.

Facetas para entender, tal vez, la evolución del paro

La verdad, no sé de dónde los sacan porque la EPA es trimestral. Pero el INE publica datos mensuales de la tasa de desempleo y las cuelga de una de esas URLs que tienen pinta de cambiar con cualquier soplo (es decir, aviso de que en cualquier momento el enlace deja de funcionar). Por ssi acaso, estos son los datos a día de hoy.

También aparecen publicados regularmente en prensa. Y los expertos opinan sobre si la cifra es buena y o mala. Pero, ¿buena o mala con respecto a qué? Así que hoy voy a ensayar un marco en el que plantear la pregunta:

Nueva versión de MicroDatosEs: héroes, villanos y mejoras

R

Ayer odié mucho a José Luis Cañadas —que sigue no obstante siendo amigo: véase más abajo— por esto:

Nueva versión en CRAN de MicroDatosEs de @gilbellosta. Permite leer con #rstats entre otros, los microdatos los de la EPA del INE.

– Jose Luis Cañadas (@joscani) May 13, 2014

Hubiera preferido reservarme la primicia para todos sus usuarios y simpatizantes de la nueva versión del paquete MicroDatosEs recién subida a CRAN pero… en fin.

¿Dónde estoy? ¿Dónde estaré?

Me hace cierta gracia leer España: El éxodo en cifras. Desaparecen 1,7 millones de personas entre los 16 y los 39 años. El artículo razona alrededor de la tabla

donde_estan

y se pregunta a dónde ha ido la gente que está en rojo: la población activa en los tramos de edad de entre los 16 y los 29 años y entre los 30 y los 39. Aquí en Zúrich estoy rodeado de un buen número de los faltantes. Pero hay otras causas que el artículo omite.

Cómo no restar números fuzzy

Esta entrada viene motivada por varios asuntos relacionados que me han sucedido en los últimos tiempos. El primero es un colega que me preguntó sobre si el paro había subido o bajado comparando datos de un par de trimestres.

La respuesta prima facie es evidente: restas las tasas publicadas y ya. Sin embargo, las cosas son un poco más complicadas si se tiene en cuenta que la EPA tiene un error. Es decir, existen infinitas trayectorias posibles entre las tasas de paro reales (pero desconocidas) de los dos trimestres. En térmimos matemáticos, la variación de la tasa de paro es $latex X_1 - X_0$, la diferencia de (presuntamente) dos variables aleatorias normales, que es otra variable aleatoria normal con colas que se extienden a ambos lados del cero.

La EPA, en Materia (y otros medios)

Ha salido publicado recientemente un artículo en Materia sobre la EPA. Abunda sobre los temas que traté en una charla anterior. Y agradezco a su autor, Daniel Mediavilla tanto el haberse interesado por el asunto como el mencionarme en el artículo.

El artículo ha sido reproducido en otros medios, como elDiario.es y El Economista.

Puede que el titular (¡ah!, esa manía de los periodistas por el titular) invite a interpretaciones que poco tienen que ver con el contenido y la intención del texto. Es curioso, en ese sentido, leer los comentarios de los lectores de los tres medios en que ha aparecido la noticia. De los que extraigo la siguiente conclusión: ¡qué dura va a ser la campaña contra el anumerismo!