Gráficos

El arte funcional: una revisión personal

Leí El arte funcional de Alberto Cairo y he aquí finalmente mi visión, muy personal, sobre el libro.

Confiesa su autor ser un curioso, excesivamente curioso en ocasiones, en las primeras páginas del libro. Yo también lo soy. Y todos los que compartan con nosotros este vicio encontrarán en el libro una pequeña joya: historia, sicología, fisiología, cartografía y muchas otras disciplinas aparentemente dispares que informan el campo de la visualización de datos se dan cita en sus 250 páginas.

"Gráficos estadísticos y mapas con R", un análisis

Me dispongo hoy a analizar el libro Gráficos estadísticos y mapas con R que anuncié hace unos días, aun sin haber tenido oportunidad de hojearlo.

Es un libro relativamente extenso, de casi cuatrocientas páginas a todo color. Y es poco perdonable que una editorial técnica como Díaz de Santos haya permitido que el código que aparece en el libro esté en Times New Roman. Pero bueno.

La estructura general del libro tiene forma de recetario: cómo hacer para construir un determinado tipo de gráfico. Se echa en falta una discusión más profunda sobre qué tipo de gráficos son más convenientes para representar ciertos tipos de datos, qué combinaciones de colores son las más adecuadas y, más en general, una serie de buenas prácticas para la representación cuantitativa de datos. Sobran por otra parte detalles demasiado prolijos sobre las distintas opciones, paletas, tipos de línea, etc. para los que el papel no es el soporte más adecuado. Un libro, que es un documento con vocación de permanencia, debería versar sobre los aspectos diacrónicos de su materia y dejar los sincrónicos a la documentación.

Los principales problemas de España

Llevo unos días mostrando bastante poca diligencia en lo que a mi bitácora concierne. El calor con el que agosto ha maltratado los montes también ha contribuido a disipar mis ideas. También a enflaquecer la ya de por sí no muy robusta voluntad.

Y como todavía no ando recuperdo del todo, voy a aprovechar el estupendo trabajo previo de Gregorio Serrano (y véase también este otro relacionado con el anterior) para facilitar a mis lectores una tarea en la que como ciudadanos probos es probable que estén interesados y que, tal vez sin mi concurso, resultaría excesivamente enojosa.

Incendios en España

Quienes siguen de antiguo estas páginas recordarán que ya me ocupé de la cuestión de los incendios forestales hace un tiempo. Después han pasado cosas.

Por un lado, vía Alberto González Paje di con esta página, que utiliza datos del informe estadístico que publica el Ministerio de Medio Ambiente (y de otras cosas más, según la legislatura en cuestión).

También asistí hace un tiempo a una reunión de MediaLab Prado en la que Juan Elosúa nos contó cómo había conseguido acceso a la base de datos completa de incendios del Ministerio a fuerza de insistir y amparado por ciertas normas que garantizan el derecho de los ciudadanos a cualquier tipo de información de tipo medioambiental. Nos mostró, además, algunas visualizaciones que había hecho con ellos.

El arte funcional

Hoy no voy a escribir una entrada propiamente porque me acabo de comprar El arte funcional y voy a estar entretenido devorándolo estos días. 

Eso sí, ya tengo anotada en la primera línea de la página 18 una errata que aún no aparece en la lista que de ellas mantiene el autor, Alberto Cairo: se refiere al índice de Gini como índice de GINI, como si este no recibiese su nombre del estadístico italiano Corrado Gini y se tratase de las siglas de alguna cosa.

SAS, R, grandes datos y falta de afabilidad

R

El otro día hice un comentario a esta entrada de una bitácora de SAS. Esencialmente, decía dos cosas:

  • Que 10000 observaciones no hacen grandes datos (big data); 10000 observaciones son muy pocas observaciones.
  • Que el código original, la idea de la entrada, etc., proceden de este otro enlace de una página de Yihui Xie (conocido por ser el autor de knitr) en la que el problema se planteaba y resolvía con R. Se le concedía crédito en el enlace al código que aparece en la bitácora de SAS pero no de una manera, digamos, lo suficientemente manifiesta.

Y como no tuvieron a bien aprobar en la entrada mi comentario pasados unos cuantos días prudenciales, lo hago constar aquí.

Graficaca 2.0

Hace casi veinte años, cuando tomaba mis lecciones de conducción, el profesor de la autoescuela —a la sazón, mi tío— pronunció una frase que aún me persigue. Todavía hoy, casi veinte años después, me ocurre que, inopinadamente, me abstraigo del mundo y la pondero. Y sigo sin saber por dónde agarrarla. Lo que aquel día dijo mi tío tras levantar la cabeza del Marca (y mientras yo me afanaba por aparcar en batería en un costado de la ciudad universitaria de Zaragoza) fue lo siguiente: “La quinta del Buitre le ha hecho tanto bien como mal al Real Madrid”.

Deshaucios en España y su estructura geográfica

Participo (de manera muy pasiva) en un foro de periodismo de datos de Barcelona. En él se planteó la posibilidad de desarrollar un proyecto para recopilar información sobre deshaucios y entender mejor este fenómeno.

La iniciativa partió de Carlos Alonso, Concha Catalán y Karma Peiró y, recientemente, Alberto Gonzalez Paje ha cruzado varias bases de datos (como esta, la de la población por provincias del INE, etc.) para crear el material con el que he construido el siguiente gráfico:

El paro, ¿cosa de hombres?

Está de moda hablar de paro. Pero las discusiones al respecto adolecen de una serie de carencias:

  • Son excesivamente retrospectivas: nos aburren con la serie temporal, lo que pasó en 2003, en 1995 y otras fechas ya amortizadas.
  • Tienen un sesgo administrativo: honestamente, lo que pase en Andalucía importa (o debería importar) poco a un andaluz que acaba de graduarse y busca su primer empleo. Además de que existen opciones fuera de las distintas comunidades autónomas, no hay un mercado de trabajo sino cientos de mercados de trabajo estancos dentro de cada una de ellas.
  • El tema de la desigualdad entre sexos se trata de manera totalmente pueril: apenas se hace un esfuerzo por controlar el resto de las variables de confusión que pueden afectar a las tasas de paro entre sexos (p.e., la edad, el nivel educativo, etc.).

Interesa más pensar qué puede pasar en el futuro. Es complicado pero, aun así, hay fenómenos (como los demográficos) de una inercia ineluctable. Nuestros políticos, además, deberían estar pensando cuántos médicos, cuántos ingenieros, cuántos electricistas puede necesitar nuestra economía al cabo de los plazos multianuales que necesita la formación de nuevos profesionales. Para que no nos pase como en el pasado.

Edad, nivel de formación, sexo y paro

No sé si alguien podrá ayudarme con este gráfico que he hecho con Mondrian:

Está construido a partir de los microdatos de la última EPA e indica el porcentaje de parados (resaltado en verde) dentro de las siguientes tres categorías:

  • Tramos de edad (ordenados)
  • Nivel de estudios (desde los que no han completado la primaria hasta los universitarios)
  • Sexos

Desafortunadamente, he perdido las etiquetas. ¿Podría alguno de mis lectores ayudarme a identificar a qué categoría pertenece cada barra?

Otra oxímoron: notarios y estadísticas

El otro día fui al notario. Una notaría es un sitio lleno de papelotes. Decía yo: “todos los legajos de ese estante caben en mi pendrive”. Y me hacían chistar por si mis palabras podían llegar a oídos susceptibles. Luego, por unos papeles (por triplicado y todos con grandes sellos y rúbricas) impresos a partir de plantillas de Word en cuyas casillas teclea un administrativo tus apellidos, te sacan 120 euros. ¡Son tan españolas las notarías!

Gráficos estadísticos y mapas con R

R

Me ha llegado noticia de un nuevo libro sobre R, Gráficos estadísticos y mapas con R recién publicado.

Los autores son Cástor Guisande y Antonio Vaamonde, ambos de la Universidad de Vigo. Y de la ficha del libro extraigo:

En este libro se presentan en primer lugar las técnicas generales para la construcción de gráficos en R, con numerosos ejemplos de aplicación que permitirán al lector utilizar las funciones básicas con soltura, y así poder sacar el mejor partido de R para la construcción de gráficos personalizados.

Competición en Forbes: y el peor gráfico es...

… este:

Está hecho con Excel y representa los números 2, 4, 6 y 8. De acuerdo con la página en la que se anuncia el resultado del concurso,

los conos con tocan el fondo de la figura. La profundidad es un parámetro que puede cambiarse en Excel, pero muchos usuarios lo ignoran. La mayor parte de los lectores subestiman la altura del cono cuando la profundidad no es cero. La forma del cono también tiende a hacer subestimar las alturas.