Eda

Dos técnicas fundamentales para gráficos dinámicos de datos: "linking" y "brushing"

El otro día me tocó enseñar algo de lo que no sé mucho: gráficos interactivos con R. Hay muchos paquetes que vienen a hacer más o menos lo mismo. Es tentador limitarse a eso, a exponerlas. O más bien, a exponer unas vías de entrada, a establecer unas cabezas de playa desde las cuales el interesado pueda avanzar autónomamente.

Tanto (tentador) que uno pasa por alto la razón de ser misma de querer incorporar interactividad a los gráficos. Por el camino, dos técnicas fundamentales y muy útiles para tal fin: linking y brushing.

agate: análisis de datos optimizado para humanos (y no para máquinas)

Una de las cosas que menos me canso de repetir es que R no es (solo) un lenguaje de programación. R es un entorno para el análisis de datos. Los informáticos se horrorizan con él: no entienden por qué es como es. Pero, fundamentalmente, su problema es que no conciben que pueda haber sido diseñado para el REPL y no (solamente) para crear programas.

Casi todo el tiempo que paso con R abierto lo consumo trabajando interactivamente, no programando. R está pensado para facilitar ese tipo de trabajo, no para crear programas complejos. Está optimizado para el usuario, no para la máquina. De ahí se sigue una cascada de corolarios que no ha lugar plantear aquí.

El paro, ¿cosa de hombres?

Está de moda hablar de paro. Pero las discusiones al respecto adolecen de una serie de carencias:

  • Son excesivamente retrospectivas: nos aburren con la serie temporal, lo que pasó en 2003, en 1995 y otras fechas ya amortizadas.
  • Tienen un sesgo administrativo: honestamente, lo que pase en Andalucía importa (o debería importar) poco a un andaluz que acaba de graduarse y busca su primer empleo. Además de que existen opciones fuera de las distintas comunidades autónomas, no hay un mercado de trabajo sino cientos de mercados de trabajo estancos dentro de cada una de ellas.
  • El tema de la desigualdad entre sexos se trata de manera totalmente pueril: apenas se hace un esfuerzo por controlar el resto de las variables de confusión que pueden afectar a las tasas de paro entre sexos (p.e., la edad, el nivel educativo, etc.).

Interesa más pensar qué puede pasar en el futuro. Es complicado pero, aun así, hay fenómenos (como los demográficos) de una inercia ineluctable. Nuestros políticos, además, deberían estar pensando cuántos médicos, cuántos ingenieros, cuántos electricistas puede necesitar nuestra economía al cabo de los plazos multianuales que necesita la formación de nuevos profesionales. Para que no nos pase como en el pasado.

Edad, nivel de formación, sexo y paro

No sé si alguien podrá ayudarme con este gráfico que he hecho con Mondrian:

Está construido a partir de los microdatos de la última EPA e indica el porcentaje de parados (resaltado en verde) dentro de las siguientes tres categorías:

  • Tramos de edad (ordenados)
  • Nivel de estudios (desde los que no han completado la primaria hasta los universitarios)
  • Sexos

Desafortunadamente, he perdido las etiquetas. ¿Podría alguno de mis lectores ayudarme a identificar a qué categoría pertenece cada barra?