Estadística Pública

Casi un ejemplo perfecto

Hoy, el INE, casi nos ha regalado un ejemplo perfecto de la paradoja de Simpson en la nota de prensa de las Pruebas de Acceso a la Universidad.

En efecto, según la tabla

el porcentaje de hombres aprobados superó al de mujeres en cada categoría (excepto en la muy pequeña de mayores de 45 años). Pero, sin embargo, el porcentaje de aprobados entre las mujeres supera (aunque por la mínina) al de los hombres.

Tu tasa de paro personal

En el pasado nos hemos ocupado en estas páginas del desempleo. Hoy, día en el que se han anunciado los datos de la EPA del último trimestre de 2012, sale a la luz TTParo.es, un proyecto en el que he colaborado (aunque en el que todo lo que se ve es obra de Kaleidos) y que permite calcular tu tasa de paro personal.

Por ejemplo, en

puedo ver la evolución de la tasa de paro de aquellos que son como yo desde el 2005 y compararla con la general.

Algunos resultados de la Encuesta Trimestral de Coste Laboral

Voy a hacerlo. Aunque siento cierta repugnancia. Y es que promediar salarios de carretilleros y directores generales es algo que trato de evitar. Ni aun con el beneplácito del INE. No obstante, creo que el resultado final merece aún la pena y que de él se pueden extraer conclusiones no del todo irrelevantes.

Lo que voy a hacer es mostrar un par de gráficos construidos sobre los datos (agregados: da la impresión de que el INE no proporciona los microdatos) de la última Encuesta Trimestral de Coste Laboral correspondiente al tercer trimestre de 2012. De entre todas las opciones, me he decantado por indagar sobre el coste laboral por hora efectiva y por divisiones de la CNAE-09. Lo resumo en el siguiente gráfico:

Sanidad pública, sanidad privada

Lo siento. El título es engañoso. No voy a abundar en el tema de modelo sanitario. Aunque esté de moda. Traje a este debate ideas preconcebidas que se me han ido pegando durante años de andar sobre la faz de la tierra. Y mis esfuerzos me ha costado desprenderme cartesianamente de ellas para quedarme a la espera de que alguien me ilumine de manera clara y distinta. Solo sospecho que la respuesta no puede resumirse en un monosílabo, que es mixta y con ejércitos de demonios camuflados tras los detalles. Pero lo que opine es prácticamente irrelevante.

IPC de noviembre: al menos, una buena noticia

Se ha hablado mucho del dato del IPC de noviembre. En parte porque, se ve, es el usado para calcular la revalorización de las pensiones. Al parecer, el dato ha sido algo anómalo. Y tanto que ha conseguido algo inusitado: poner de acuerdo a la prensa de izquierdas con la de derechas. Dizque el gobierno ha orquestado una transferencia de renta de quienes reciben pensiones hacia quienes las financiamos (algo que, por otra parte, a nadie he visto subrayar: ¡como si el gobierno pagase las pensiones de su bolsillo!).

Más sobre variaciones insignificantes en estadísticas públicas

Hemos talado cantidad de montes y destruido el ecosistema de miles de ardillas para fabricar el papel sobre el que discutir asuntos totalmente irrelevantes. Hablé un poco de eso hace unos días y más en ocasiones anteriores, como esta y alguna más que me da pereza ubicar.

Ahora leo en Significance cómo protesta Mark Fransham:

La BBC informó la semana pasada que “el número de desempleados descendió en 50.000 hasta los 2,53 millones en el trimestre anterior”. Me pareció un cambio pequeño en una estimación procedente de una encuesta. Así que, preguntándome por la significancia estadística, consulté la página de la Oficina Nacional de Estadística, (ONS). Que, de hecho, decía: “hay 2,53 millones de desempleados, 50.000 menos desde marzo a mayo de 2012 y desde la año anterior”.

Errores de las encuestas electorales en Cataluña: una hipótesis sugerente

Pedro Concejero sugirió ayer en la reunión del grupo de usuarios de R de Madrid una hipótesis muy sugerente para explicar parte del error cometido por las encuestas electorales publicadas en Cataluña. Voy a elaborarla en esta entrada pero subrayando antes de todo que desconozco el detalle del funcionamiento de recogida de datos y que lo que voy a contar aquí no pasa de ser una hipótesis que correspondería a otros tratar de verificar.

¿... coma cero dos por ciento? ¡Anda ya!

Hoy hablo en la reunión del grupo de usuarios de R de Madrid. Voy a reciclar la charla que di en las IV Jornadas de Usuarios de R sobre mi paquete MicroDatosEs y voy a aprovechar para criticar, en mi estilo, enunciados como

El número de parados crece en 85.000 personas y alcanza la cifra de 5.778.100. La tasa de paro se incrementa 38 centésimas hasta el 25,02%.

que pueden encontrarse en la nota de prensa del INE que resume los resultados de la última encuesta de población activa, la del tercer trimestre de 2012.

Ley de Transparencia y anonimidad en ficheros de microdatos (II)

Escribí hace un tiempo sobre el asunto de la transparencia y la privacidad y quiero retomar el tema. Comienzo reafirmando mi preferencia por y compromiso con la causa de la transparencia en las administraciones públicas, fe de lo cual da esta misma bitácora. Pero la serendipia me ha llevado a tropezar con un ciertas circunstancias que han sembrado de matices mi inicial entusiasmo. No son insalvables, convengo. Pero me siento en la obligación de, cuando menos —y, pensando que pueden no ser de universal conocimiento— dejar constancia escrita de ellas.

Los principales problemas de España

Llevo unos días mostrando bastante poca diligencia en lo que a mi bitácora concierne. El calor con el que agosto ha maltratado los montes también ha contribuido a disipar mis ideas. También a enflaquecer la ya de por sí no muy robusta voluntad.

Y como todavía no ando recuperdo del todo, voy a aprovechar el estupendo trabajo previo de Gregorio Serrano (y véase también este otro relacionado con el anterior) para facilitar a mis lectores una tarea en la que como ciudadanos probos es probable que estén interesados y que, tal vez sin mi concurso, resultaría excesivamente enojosa.

Un paseo por el paquete MicroDatosEs (y la EPA, de nuevo)

En esta entrada voy a ilustrar el uso del paquete MicroDatosEs que anuncié el otro día. Como indiqué entonces, de momento sólo permite leer microdatos de la EPA con el formato que tiene desde el año 2005, la fecha del último cambio metodológico.

Como todavía no están disponibles los del segundo trimestre del 2012, utilizaré los del primero. Para ello, hay que ir a las páginas del INE y seleccionar el fichero correspondiente al primer trimestre de 2012 (que los impacientes pueden descargar directamente de su enlace directo).

El paquete MicroDatosEs para microdatos públicos

Comencé hace un tiempo un pequeño paquete de R, MicroDataEs, para importar automáticamente a R ficheros de microdatos distribuidos por los diversos organismos estadísticos (españoles, por acotar el ámbito). El objetivo es facilitar el análisis de este tipo de datos a los usuarios de R y como consecuencia:

  • fomentar el uso de R entre aquellos que utilicen frecuentemente este tipo de información y
  • hacer más accesibles estos datos a los usuarios de R.

Quien haya tratado de trabajar, por ejemplo, con los ficheros de microdatos de la EPA que publica el INE comprenderá rápidamente el interés y alcance del paquete. Porque estos datos:

No es país para estadísticos

Esto me pasa por madrugar en lunes. Me levanto y me tropiezo con noticias como esta:

Ha sido reproducida en términos similares en otros medios. Es decir, incidiendo en la presunta causalidad de la subida del precio de los medicamentos en la subida del IPC de julio (el índice adelantado; el definitivo se conocerá a mediados de agosto). Sin embargo, la nota de prensa del INE, la única información con la que se cuenta a esta hora y que no incluye desgloses dice textualmente (aunque con mi subrayado):