Mondrian

Dos técnicas fundamentales para gráficos dinámicos de datos: "linking" y "brushing"

El otro día me tocó enseñar algo de lo que no sé mucho: gráficos interactivos con R. Hay muchos paquetes que vienen a hacer más o menos lo mismo. Es tentador limitarse a eso, a exponerlas. O más bien, a exponer unas vías de entrada, a establecer unas cabezas de playa desde las cuales el interesado pueda avanzar autónomamente.

Tanto (tentador) que uno pasa por alto la razón de ser misma de querer incorporar interactividad a los gráficos. Por el camino, dos técnicas fundamentales y muy útiles para tal fin: linking y brushing.

Gráficos de mosaico: ¿sí o no?

Los gráficos de mosaico son cosas parecidas a

Mosaic-big

que sirven para representar tablas bidimensionales (como en el ejemplo anterior) o multidimensionales, como en mosaic_titanic

Hay más al respecto sobre este tipo de gráficos aquí.

Personalmente, los utilizo bastante como herramienta exploratoria. En particular, usando Mondrian. Mondrian permite crear estos y otros tipos de gráficos similares (p.e., estos) de manera, además, interactiva.

Me gustan porque permiten representar simultáneamente muchas variables. Pero tengo mis reservas: casi siempre me resultan difíciles de interpretar y también, mucho más, de explicar.

El paro, ¿cosa de hombres?

Está de moda hablar de paro. Pero las discusiones al respecto adolecen de una serie de carencias:

  • Son excesivamente retrospectivas: nos aburren con la serie temporal, lo que pasó en 2003, en 1995 y otras fechas ya amortizadas.
  • Tienen un sesgo administrativo: honestamente, lo que pase en Andalucía importa (o debería importar) poco a un andaluz que acaba de graduarse y busca su primer empleo. Además de que existen opciones fuera de las distintas comunidades autónomas, no hay un mercado de trabajo sino cientos de mercados de trabajo estancos dentro de cada una de ellas.
  • El tema de la desigualdad entre sexos se trata de manera totalmente pueril: apenas se hace un esfuerzo por controlar el resto de las variables de confusión que pueden afectar a las tasas de paro entre sexos (p.e., la edad, el nivel educativo, etc.).

Interesa más pensar qué puede pasar en el futuro. Es complicado pero, aun así, hay fenómenos (como los demográficos) de una inercia ineluctable. Nuestros políticos, además, deberían estar pensando cuántos médicos, cuántos ingenieros, cuántos electricistas puede necesitar nuestra economía al cabo de los plazos multianuales que necesita la formación de nuevos profesionales. Para que no nos pase como en el pasado.

Edad, nivel de formación, sexo y paro

No sé si alguien podrá ayudarme con este gráfico que he hecho con Mondrian:

Está construido a partir de los microdatos de la última EPA e indica el porcentaje de parados (resaltado en verde) dentro de las siguientes tres categorías:

  • Tramos de edad (ordenados)
  • Nivel de estudios (desde los que no han completado la primaria hasta los universitarios)
  • Sexos

Desafortunadamente, he perdido las etiquetas. ¿Podría alguno de mis lectores ayudarme a identificar a qué categoría pertenece cada barra?