Canales (o estéticas), de mejor a peor, según Healy

Data visualization, de Healy, sicólogo sociólogo (gracias al atento comentarista) para más señas, es dizquel nuevo Cleveland. Que lo pone al día 27 años después.

Una muestra del libro:

Se trata de las estéticas (en su acepción ggplot2) ordenadas de mayor a menor efectividad.

[Estoy leyéndolo y nada nuevo bajo el sol; tal vez, sí, el aggiornamiento que de vez en cuando parece que necesitan las cosas para que se oreen las ideas, las tipografías y las paletas de color de los gráficos.]

PIB trimestral: una alternativa gráfica a la representación tradicional para los tiempos del coronavirus

Gráficas que muestran la velocidad a la que varía el PIB como

han sido habituales para representar la evolución de la economía. En particular, porque antes de los espasmos de los últimos trimestres eran más o menos fáciles de intepretar. Pero ahora ya no.

La velocidad es una medida útil en tanto que varía de manera más o menos suave. En momentos de botes y rebotes, es mejor saber dónde se está que a la velocidad a la que uno no sabe si sube o baja. Por eso es más ilustrativo

Distancias (II): las distancias no son distancias

Una distancia, Wikipedia dixit, sobre un conjunto $latex X$ es una función $latex d$ definida sobre $latex X \times X$ que toma valores en los reales $latex \ge 0$ y que cumple:

  1. $d(a,b) = 0 \iff a = b$
  2. $d(a,b) = d(b,a)$
  3. $d(a,c) \le d(a, b) + d(b, c)$

En la práctica, sin embargo, he encontrado violaciones tanto de (1) como de (2). ¿A alguien se le ocurren ejemplos?

Sin embargo, (3) se mantiene. Sin (3) todo se volvería una locura. De hecho, obtener resultados razonable usando distancias significa particularmente que esas distancias cumplen (3).

Distancias (I): el planteamiento del problema

Me han pedido (vía Twitter) que desarrolle cosas que tengo por ahí desperdigadas (p.e., en las notas de esos cursos que ya no daré y puede que en algunas entradas viejunas de este blog) sobre distancias.

¿Por qué son importantes las distancias? Por un principio que no suele ser explicitado tanto como merece en ciencia de datos: si quieres saber algo sobre un sujeto, busca unos cuantos parecidos y razona sobre ellos.

¿Mercados de apuestas como cobertura?

Cierta gente, mucha, está mostrando su sorpresa en estos días acerca de las discrepancias entre lo que dicen las encuestas por un lado y el consenso de los mercados de apuestas con respecto a lo de Trump. Por ejemplo, aquí, aquí o

Algoritmos y ética circa 1950

Estoy corrigiendo las partes de mi libro que tienen que ver con la teoría del a probabilidad para hacerlas más prácticas para quienes llegan a ese mundo no para aprender una serie de reglas operativas que le sirvan para resolver un examen y pasar a otra cosa sino para su trabajo y su vida. Es decir, para asignar probabilidades a eventos.

Y eso me ha llevado a hojear uno de los libros más famosos en los últimos tiempos dedicados al asunto: Superforecasting. En el que he encontrado una referencia a una discusión del perínclito Meehl que dice:

Qué métodos estadísticos utilizar si el pan de tus hijos depende de que las p sean pequeñajas

Según Methods Matter: P-Hacking and Publication Bias in Causal Analysis in Economics, las variables instrumentales (para estas, en particular, véase esto) y las diferencias en diferencias:

Applying multiple approaches to over 21,000 hypothesis tests published in 25 leading economics journals we find that the extent of p-hacking and publication bias varies greatly by method. IV (and to a lesser extent DID) are particularly problematic.

Es curioso que se estudie también la regresión con discontinuidades y que no acabe en el podio. Sospecho que es tan cantosa que no pasa los filtros de los editores y revisores.

Anomalías, cantidad de información e "isolation forests"

Identificar a un tipo raro es sencillo: el que lleva tatuada a su madre en la frente. Identificar a un tipo normal es más complicado: altura… normal, pelo… ¿moreno? Es… como… normal, ni gordo ni flaco…

Identificar transacciones de tarjeta normales es prolijo: gasta más o menos como todos en supermercados, un poco más que la media en restaurantes, no tiene transacciones de gasolineras… Identificar transacciones fraudulentas es (o puede ser) sencillo: gasta miles de euros en las farmacias de los aeropuertos y nada en otros sitios.

Intervalos de confianza y la velocidad de la luz

La interpretación puramente frecuentista de los intervalos de confianza es que el 95% de ellos contendrán el valor de interés en cuestión. Veamos qué nos cuenta al respecto la historia de la medición de la velocidad de la luz contemplada a través de la lectura de Determining the Speed of Light (1676-1983): An Internalist Study in the Sociology of Science primero en forma tabular (nota: en la fuente original hay una tabla más extensa de la que esta es resumen),