Visualización

Los boxplots como "herramientas de entretiempo" y cuatro asuntos más

I.

Aquí se lee:

Puede parecer absurdo verificar un modelo comparando sus inferencias con las expectativas razonables —–si ya supiéramos qué esperar, ¿para qué modelar nada?— pero hay dos razones por las que este procedimiento nos parece razonable.

Es muy interesante también en tanto que describe la cantidad de hipótesis que entran —más bien, que alguien mete— en uno de esos modelos tan objetivos y data driven que vemos publicados por ahí.

Argumentos para discutir sobre la inteligencia de los LLMs y cuatro asuntos más

I. Visualización

Recopilo aquí cuatro enlaces vagamente hermanados por su relación con la visualización (y los LLMs):

  • Exploración interaectiva de la arquitecturas de ciertos LLMs, aquí.
  • Una visualización/animación sobre cómo funcionan los transformers, aquí.
  • Aquí, en vídeo.
  • Y dos para tokens, este y este.

II. Inteligencia

Dos discusiones, esta y esta, sobre la inteligencia de los LLMs. De la primera rescato eso de que estamos moviendo constantemente la portería de eso que llamamos inteligencia. De la segunda, la vinculación de lo que hacen actualmente los LLMs con el pensar deprisa y despacio de Kahneman.

Curso en línea: "R para visualización de datos"

R

Entrada breve solo para anunciar el curso/libro/manual gratuito y en línea R para visualización de datos de Luz Frías —de quien todo lo que diga será poco—.

(Hubo un tiempo en el que única tecnología disponible para hacer llegar conocimiento a la gente era escribiendo libros. Había libros buenos y libros malos pero todos costaban dinero. Así que algunos escribían reseñas sobre ellos que permitían al potencial lector hacerse una idea de si valía o no la pena hacerse con él. Pero la distribución gratuita de de contenido por internet, debería hacer morir el viejo género del escribir sobre lo que otros han escrito. Basta aquí una recomendación —encarecida— y el enlace para que el interesado lo hojee en menos tiempo que costaría leer lo que sobre él pudiera contarse.)

Curso en línea: "R para visualización de datos"

R

Entrada breve solo para anunciar el curso/libro/manual gratuito y en línea R para visualización de datos de Luz Frías —de quien todo lo que diga será poco—.

(Hubo un tiempo en el que única tecnología disponible para hacer llegar conocimiento a la gente era escribiendo libros. Había libros buenos y libros malos pero todos costaban dinero. Así que algunos escribían reseñas sobre ellos que permitían al potencial lector hacerse una idea de si valía o no la pena hacerse con él. Pero la distribución gratuita de de contenido por internet, debería hacer morir el viejo género del escribir sobre lo que otros han escrito. Basta aquí una recomendación —encarecida— y el enlace para que el interesado lo hojee en menos tiempo que costaría leer lo que sobre él pudiera contarse.)

La miseria de la sicología de la percepción

A autores como Playfair (tartas), Tukey (diagramas de cajas) o Tufte (pequeños múltiplos) debemos algunas de las técnicas de representación gráfica de datos que usamos habitualmente y a las que el público, mal que bien, está acostumbrado.

Otros autores han tratado de tecnologizar dichas técnicas. Es decir, entender por qué funcionan o cómo hacerlas más efectivas. Para ello se han apoyado en el trabajo de los sicólogos de la percepción. El trabajo pionero al respecto, al menos en el ámbito de la estadística, es de Cleveland y McGill (véase esto y, si procede, sus referencias) y ha sido continuado por otros.

Sobre rectángulos largos y estrechos

Una de las notas que tenía de la lectura del libro de visualización de datos de Healy se refería a los problemas de comparación que crean los rectángulos largos y estrechos. Es decir, cuando el tamaño de ciertas variables se codifica usando el área de rectángulos con dimensiones muy desiguales.

Reflexionando sobre el asunto, vi que el fenómeno de los rectángulos largos y estrechos (o mucha base y poca altura, si se quiere) es el que subyace al llamado problema de la conclusión repugnante, que aparece en ética cuando el criterio de bondad es el de la maximización de la suma de las utilidades individuales: una infinita (base) famélica (altura) legión podría tener unos niveles agregados de utilidad (base $latex \times$ altura) superiores a una población pequeña y feliz.

Canales (o estéticas), de mejor a peor, según Healy

Data visualization, de Healy, sicólogo sociólogo (gracias al atento comentarista) para más señas, es dizquel nuevo Cleveland. Que lo pone al día 27 años después.

Una muestra del libro:

Se trata de las estéticas (en su acepción ggplot2) ordenadas de mayor a menor efectividad.

[Estoy leyéndolo y nada nuevo bajo el sol; tal vez, sí, el aggiornamiento que de vez en cuando parece que necesitan las cosas para que se oreen las ideas, las tipografías y las paletas de color de los gráficos.]

El discreto encanto de las animaciones

Representando datos, una animación es un gráfico en el que unas facetas (en terminología de ggplot2) ocultan el resto, como en

extraído de aquí y que representa la evolución del tamaño (superficie) de los coches habituales a lo largo del último siglo. Lo mismo pero evitando el indeseado efecto:

El código:

library(ggplot2)

datos <- structure(list(year = c(1930L,
  1950L, 1960L, 1970L,
  1980L, 1990L, 2000L, 2010L, 2018L),
  width = c(1.45, 1.59, 1.54, 1.56, 1.64,
           1.67, 1.75, 1.76, 1.78),
  length = c(3.38, 4.02, 3.96, 3.89, 3.98,
           4, 4.18, 4.12, 4.23)),
  class = "data.frame", row.names = c(NA, -9L))

ggplot(datos, aes(xmin = 0, ymin = 0,
  xmax = length, ymax = width)) +
  geom_rect() +
  coord_fixed() +
  facet_wrap(~ year) +
  xlab("longitud (m)") +
  ylab("anchura (m)") +
  ggtitle("Evolución de la superficie\ndel coche 'promedio'")

"Beautiful evidence", de Tufte

Acabo de leer Beautiful Evidence, el último de los libros de E. Tufte y voy a recoger aquí unas notas sobre él mismo. Espero que sirvan tanto a los interesados en el asunto como a mí mismo.

El libro consta de nueve capítulos prácticamente independientes entre sí. Los dos últimos son perfectamente prescindibles: están a medio caballo entre el autobombo y el márqueting; parece que Tufte es también escultor y no pierde ocasión de darlo a conocer. Tal vez por si entre nosotros sus lectores pudiera haber algún marchante de arte.