Gráficos

45º

Llevaba unas semanas sorprendido: en el trabajo alguien hubía imprimido y olvidado recoger An Empirical Model of Slope Ratio Comparisons. Durante un tiempo pensé que podía haber sido sido yo. Implausible, en todo caso: siempre imprimo sobre papel reciclado y en escala de grises; nunca, como este artículo, a todo color (aunque no tiene mucho) y sobre papel sin estrenar (aunque, eso sí, a doble cara).

Estaba intrigado. Quería saber a quién de la oficina le podía interesar la diferencia entre los dos siguientes gráficos:

Imágenes y magia

No sé si imagen y magia comparten la misma raíz. Lo que me consta es que la gente que procesa imágenes hace algo que me parece casi mágico. De mayor quiero ser como ellos.

Traigo aquí un ejemplo sobre técnicas para completar imágenes:

image_reconstruction

El artículo completo, Scene Completion Using Millions of Photographs, y mucho material auxiliar puede revisarse aquí.

"Visual Explanations" de Tufte: el primer gráfico estadístico

Aprovecho los tiempos muertos de aviones y aeropuertos para ir leyendo esos libritos de Tufte que, no sé de qué manera, acabaron apareciendo como pedeefes en mi tableta. El otro día hablé de y resumí Beautiful Evidence. Esta vez le toca el turno a Visual Explanations.

Según el autor, este libro —y a diferencia de otros de los suyos, que se centran en números o sustantivos— trata la representación gráfica de verbos: acciones, procesos, secuencias efecto-causa. Pero esta vez, en lugar de resumirlo voy a, simplemente, limitarme a extraer de él este gráfico:

Grid, Scala y arbolitos fractales

Inspirado por

  • los arbolitos que he visto esta mañana en mi semivuelta al lago de Zúrich,
  • las cosas que estoy leyendo últimamente sobre el paquete grid de R (p.e., grid graphics, de Murrell)
  • mi curso de scala y
  • este enlace

me he decidido a reescribirlo como Dios manda (y no como de primeras se le ocurriría a un neoingeniero al que solo le han enseñado MatLab y que, por lo tanto, tiene vetado el acceso a cualquier tipo de empresa tecnológica puntera). Me ha quedado así:

Tres criterios para evaluar gráficos

Tienes que evaluar un gráfico. Puede ser uno que estés haciendo. O uno que encuentres. ¿Es bueno? ¿Bajo qué criterios?

Estas tres preguntas te ayudarán a guiar tu análisis:

  • ¿Cuál es la pregunta a la que el gráfico trata de dar respuesta?
  • ¿Qué es lo que dicen los datos?
  • ¿Qué dice el gráfico?

Las preguntas, escritas en inglés y dispuestas en un triángulo, tienen este aspecto:

trifecta_checkup

Para saber más, véase esto o esto.

Gráficos de mosaico: ¿sí o no?

Los gráficos de mosaico son cosas parecidas a

Mosaic-big

que sirven para representar tablas bidimensionales (como en el ejemplo anterior) o multidimensionales, como en mosaic_titanic

Hay más al respecto sobre este tipo de gráficos aquí.

Personalmente, los utilizo bastante como herramienta exploratoria. En particular, usando Mondrian. Mondrian permite crear estos y otros tipos de gráficos similares (p.e., estos) de manera, además, interactiva.

Me gustan porque permiten representar simultáneamente muchas variables. Pero tengo mis reservas: casi siempre me resultan difíciles de interpretar y también, mucho más, de explicar.

Una de gráficos casi artísticos con R

Hoy traigo una selección a cuatro páginas en que podréis encontrar gráficos casi artísticos creados con R. En la primera de ellas se construye el fractal de Collatz.

En las dos siguientes, los autores construyen animaciones. Una de ellas para ilustrar el mecanismo de la regresión local y el segundo para crear figuras en 3D.

London

Y el último, trata de mapas. En particular, de cómo sobreimponer sobre ellos datos de rutas.

Graficaca en Gas Natural Fenosa

Hoy he querido entrar a la página de Gas Natural Fenosa para echarles un vistazo a mis facturas y he encontrado el siguiente y magnífico ejemplar de graficaca:

consumo_electricidad_fenosa

Es un compendio de todas las cosas que no hay que hacer para representar datos gráficamente. Lo más grave que tiene es que las barras no corresponden a meses sino a periodos de duración desigual e indefinida. No hay forma de ver una evolución ni de realizar una comparación.

Mapas: cosas casi increíbles que pueden hacerse con R

Nunca pude ser un erizo. Lo intenté durante años y acabé en el sicólogo. Si el cuerpo me hubiese dado, ahora, tal vez, como algunos compañeros de promoción, sería un experto en un área diminuta del conocimiento y corregiría exámenes los fines de semana. Descubrí con tiempo y muchas sesiones de a 60 euros la hora que había nacido para ser un zorro, un merodeador que olisquea aquí y allá.

Una lectura superficial de estas páginas que escribo puede dar la impresión de que contienen conocimientos profundos (¡ojalá!). Una lectura profunda, que contiene superficialidades (¡convengo!). Son obra de un zorro.

"Beautiful evidence", de Tufte

Acabo de leer Beautiful Evidence, el último de los libros de E. Tufte y voy a recoger aquí unas notas sobre él mismo. Espero que sirvan tanto a los interesados en el asunto como a mí mismo.

El libro consta de nueve capítulos prácticamente independientes entre sí. Los dos últimos son perfectamente prescindibles: están a medio caballo entre el autobombo y el márqueting; parece que Tufte es también escultor y no pierde ocasión de darlo a conocer. Tal vez por si entre nosotros sus lectores pudiera haber algún marchante de arte.

Selección de enlaces: redes sociales, gráficos con R, ofertas de trabajo y p-valores

Acá va otra selección de cuatro enlaces relevantes –que no necesariamente nuevos— de la semana. El primero, Using Metadata to find Paul Revere recoge a modo de historia, que algunos encontrarán amena, una aplicación de rudimentos del álgebra lineal al análisis de redes sociales. Dada una matriz de incidencia A (personas que pertenecen a clubes) es posible calcular índices de proximidad entre personas (o entre clubes) calculando no más AA'. El resto hasta ganar el premio de Netflix es pura heurística.

Diagramas de caja, 44 años después

Efectivamente, 44 años después de que Tukey describiese su schematic plot, los diagramas de caja no han calado en el gran público. Dado que dichos diagramas son la representación más simple que se me ocurre de una distribución de probabilidad, me temo que es síntoma de un mal mayor: que no estamos preparados para aceptar que los fenómenos no están perfectamente parametrizados y sino sujetos a errores, oscilaciones, perturbaciones, errores e imprevistos.