Rescato hoy el vídeo de una conferencia mía de 2013 sobre la EPA,
que estaba alojado en un portal del que probablemente acabe desapareciendo. Lo he repasado por encima y creo que sigue conteniendo cosas valiosas. Otras puede que hayan acabado desactualizadas. Espero no obstante que lo bueno aproveche y lo malo no confunda.
La gente de rOpenSci hace cosas a las que merece la pena atento. Tanto por los objetivos como por medios y las formas. Recomiendo seguir sus últimas publicaciones acerca de la profesionalización del proceso de desarrollo de código.
Llevo unos meses jugando con una idea inspirada por rOpenSci: crear un respositorio y un consorcio más o menos formal que desarrolle, mantenga y mejore herramientas (en R) de interés para el procesamiento y análisis de datos ya no científicos sino españoles.
No auncié mi pequeña charla/taller del sábado pasado sobre microdatos porque la sala tenía un aforo ínfimo y en el Meetup correspondiente había lista de espera.
Pero cuelgo el material (que es un guión; no hay presentación) por si a alguien le resulta útil.
@adolflow (en persona) viene hoy y me dice si lo he visto. ¿Qué cosa? Se refiere a lo que han publicado en El Español, España en Cifras. Lo miro por encima y encuentro
¡Tasa de paro municipal! Lo siento, @adolflow, pero tal cosa no existe. No, no es que los datos sean secretos, no sean transparentes, no sean reutilizables. Es, simplemente, que no existe.
¿Peros?
No, no hay peros. Fijáte: hay 8000 municipios y la EPA se basa en una encuesta de unos 60000 hogares.
¿Cuál es la cifra de variación del número de parados de la que hablan la última EPA y los medios? 13100.
¿Más menos cuánto? Según el INE, el error de muestreo relativo, $latex \sqrt{V(\hat{\sigma}}$ a nivel nacional en términos porcentuales es
Es decir, el intervalo de confianza para la cifra de parados tendría una anchura como de 100k sujetos. Obviamente, eso impide calcular variaciones de un orden de magnitud menor.
Hacía tiempo que no hablaba de este tema. Pero han salido de mi LIFO de artículos potencialmente interesantes dos a los que merece la pena echar un ojo. El primero, este, arranca con
Government statistical agencies commonly report official economic statistics as point estimates. Agency documents describing data and methods may acknowledge that estimates are subject to error, but they typically do not quantify error magnitudes. News releases present estimates with little if any mention of potential error.
Imaginemos un país feliz en el que mucha gente trabaja durante dos años y luego se toma un mes para buscar otro trabajo mejor. ¿Cuál sería su tasa de paro? Del 4 %: la gente pasaría en el paro uno de cada 25 meses. Ese estado transitorio de un mes se manifestaría así en la EPA de dicho país, como un stock de desempleados.
Descrita como flujo, la situación parecería propicia.
La verdad, no sé de dónde los sacan porque la EPA es trimestral. Pero el INE publica datos mensuales de la tasa de desempleo y las cuelga de una de esas URLs que tienen pinta de cambiar con cualquier soplo (es decir, aviso de que en cualquier momento el enlace deja de funcionar). Por ssi acaso, estos son los datos a día de hoy.
También aparecen publicados regularmente en prensa. Y los expertos opinan sobre si la cifra es buena y o mala.
Ayer odié mucho a José Luis Cañadas —que sigue no obstante siendo amigo: véase más abajo— por esto:
Nueva versión en CRAN de MicroDatosEs de @gilbellosta. Permite leer con #rstats entre otros, los microdatos los de la EPA del INE.
– Jose Luis Cañadas (@joscani) May 13, 2014
Hubiera preferido reservarme la primicia para todos sus usuarios y simpatizantes de la nueva versión del paquete MicroDatosEs recién subida a CRAN pero… en fin.
Me hace cierta gracia leer España: El éxodo en cifras. Desaparecen 1,7 millones de personas entre los 16 y los 39 años. El artículo razona alrededor de la tabla
y se pregunta a dónde ha ido la gente que está en rojo: la población activa en los tramos de edad de entre los 16 y los 29 años y entre los 30 y los 39. Aquí en Zúrich estoy rodeado de un buen número de los faltantes.
Esta entrada viene motivada por varios asuntos relacionados que me han sucedido en los últimos tiempos. El primero es un colega que me preguntó sobre si el paro había subido o bajado comparando datos de un par de trimestres.
La respuesta prima facie es evidente: restas las tasas publicadas y ya. Sin embargo, las cosas son un poco más complicadas si se tiene en cuenta que la EPA tiene un error.
Ha salido publicado recientemente un artículo en Materia sobre la EPA. Abunda sobre los temas que traté en una charla anterior. Y agradezco a su autor, Daniel Mediavilla tanto el haberse interesado por el asunto como el mencionarme en el artículo.
El artículo ha sido reproducido en otros medios, como elDiario.es y El Economista.
Puede que el titular (¡ah!, esa manía de los periodistas por el titular) invite a interpretaciones que poco tienen que ver con el contenido y la intención del texto.
Ya ha salido publicado el vídeo de la charla sobre la EPA (y más cosas) que anuncié el otro día.
Coda El enlace anterior puede no estar ya operativo. He logrado rescatar el vídeo y subirlo a mi canal de Youtube. Ahora puede verse aquí.