De A/B a DiD

Un test A/B consiste en (o aspira a) estimar (y tal vez promediar) las diferencias

predict(modelo_t, x) - predict(modelo_c, x)

donde modelo_t y modelo_c son modelos construidos en grupos tratados y no tratados de cierta manera.

Entra el tiempo.

Ahora ya no se trata de medir esas diferencias sino las diferencias entre los incrementos antes y después. Que se hace construyendo cuatro modelos para con ellos obtener

(predict(modelo_td, x) - predict(modelo_ta, x)) -

Codificación de categóricas: de (1 | A) a (B | A)

La notación y la justificación de (1 | A) está aquí, una vieja entrada que no estoy seguro de que no tenga que retocar para que no me gruña el ministerio de la verdad.

Esta entrada lo es solo para anunciar que en uno de nuestros proyectos y a resultas de una idea de Luz Frías, vamos a implementar una versión mucho más parecida al lo que podría representar el término (B | A), que es, casi seguro, chorrocientasmil veces mejor.

No es tanto sobre la media como sobre la maldición de la multidimensionalidad

El artículo que motiva esta entrada, When U.S. air force discovered the flaw of averages, no lo es tanto sobre la media como sobre la maldición de la multidimensionalidad.

Podría pensarse que es una crítica a la teoría del hombre medio de Quetelet en tanto que niega la existencia de ese sujeto ideal. Pero lo que dice es una cosa sutilmente distinta:

Using the size data he had gathered from 4,063 pilots, Daniels calculated the average of the 10 physical dimensions believed to be most relevant for design, including height, chest circumference and sleeve length.

Distancias (III): la gran pregunta

Dejemos atrás los puntos en el plano. Olvidemos al Sr. Gower. La gran pregunta a la que uno se enfrenta al construir una distancia es en términos de qué se espera proximidad entre sujetos. Y eso genera una cadena de subpreguntas del tipo:

¿Son más próximos un individuo y una individua de 33 años o una individua de 33 y otra de 45?

Las dos entradas restantes de la serie (una sucia, rápida y práctica; la otra más especulativa) van sobre opciones disponibles para atacar (nótese que digo atacar y no resolver) el problema.

Canales (o estéticas), de mejor a peor, según Healy

Data visualization, de Healy, sicólogo sociólogo (gracias al atento comentarista) para más señas, es dizquel nuevo Cleveland. Que lo pone al día 27 años después.

Una muestra del libro:

Se trata de las estéticas (en su acepción ggplot2) ordenadas de mayor a menor efectividad.

[Estoy leyéndolo y nada nuevo bajo el sol; tal vez, sí, el aggiornamiento que de vez en cuando parece que necesitan las cosas para que se oreen las ideas, las tipografías y las paletas de color de los gráficos.]

PIB trimestral: una alternativa gráfica a la representación tradicional para los tiempos del coronavirus

Gráficas que muestran la velocidad a la que varía el PIB como

han sido habituales para representar la evolución de la economía. En particular, porque antes de los espasmos de los últimos trimestres eran más o menos fáciles de intepretar. Pero ahora ya no.

La velocidad es una medida útil en tanto que varía de manera más o menos suave. En momentos de botes y rebotes, es mejor saber dónde se está que a la velocidad a la que uno no sabe si sube o baja. Por eso es más ilustrativo

Distancias (II): las distancias no son distancias

Una distancia, Wikipedia dixit, sobre un conjunto $latex X$ es una función $latex d$ definida sobre $latex X \times X$ que toma valores en los reales $latex \ge 0$ y que cumple:

  1. $d(a,b) = 0 \iff a = b$
  2. $d(a,b) = d(b,a)$
  3. $d(a,c) \le d(a, b) + d(b, c)$

En la práctica, sin embargo, he encontrado violaciones tanto de (1) como de (2). ¿A alguien se le ocurren ejemplos?

Sin embargo, (3) se mantiene. Sin (3) todo se volvería una locura. De hecho, obtener resultados razonable usando distancias significa particularmente que esas distancias cumplen (3).

Distancias (I): el planteamiento del problema

Me han pedido (vía Twitter) que desarrolle cosas que tengo por ahí desperdigadas (p.e., en las notas de esos cursos que ya no daré y puede que en algunas entradas viejunas de este blog) sobre distancias.

¿Por qué son importantes las distancias? Por un principio que no suele ser explicitado tanto como merece en ciencia de datos: si quieres saber algo sobre un sujeto, busca unos cuantos parecidos y razona sobre ellos.

¿Mercados de apuestas como cobertura?

Cierta gente, mucha, está mostrando su sorpresa en estos días acerca de las discrepancias entre lo que dicen las encuestas por un lado y el consenso de los mercados de apuestas con respecto a lo de Trump. Por ejemplo, aquí, aquí o

Algoritmos y ética circa 1950

Estoy corrigiendo las partes de mi libro que tienen que ver con la teoría del a probabilidad para hacerlas más prácticas para quienes llegan a ese mundo no para aprender una serie de reglas operativas que le sirvan para resolver un examen y pasar a otra cosa sino para su trabajo y su vida. Es decir, para asignar probabilidades a eventos.

Y eso me ha llevado a hojear uno de los libros más famosos en los últimos tiempos dedicados al asunto: Superforecasting. En el que he encontrado una referencia a una discusión del perínclito Meehl que dice:

Qué métodos estadísticos utilizar si el pan de tus hijos depende de que las p sean pequeñajas

Según Methods Matter: P-Hacking and Publication Bias in Causal Analysis in Economics, las variables instrumentales (para estas, en particular, véase esto) y las diferencias en diferencias:

Applying multiple approaches to over 21,000 hypothesis tests published in 25 leading economics journals we find that the extent of p-hacking and publication bias varies greatly by method. IV (and to a lesser extent DID) are particularly problematic.

Es curioso que se estudie también la regresión con discontinuidades y que no acabe en el podio. Sospecho que es tan cantosa que no pasa los filtros de los editores y revisores.

Anomalías, cantidad de información e "isolation forests"

Identificar a un tipo raro es sencillo: el que lleva tatuada a su madre en la frente. Identificar a un tipo normal es más complicado: altura… normal, pelo… ¿moreno? Es… como… normal, ni gordo ni flaco…

Identificar transacciones de tarjeta normales es prolijo: gasta más o menos como todos en supermercados, un poco más que la media en restaurantes, no tiene transacciones de gasolineras… Identificar transacciones fraudulentas es (o puede ser) sencillo: gasta miles de euros en las farmacias de los aeropuertos y nada en otros sitios.

Intervalos de confianza y la velocidad de la luz

La interpretación puramente frecuentista de los intervalos de confianza es que el 95% de ellos contendrán el valor de interés en cuestión. Veamos qué nos cuenta al respecto la historia de la medición de la velocidad de la luz contemplada a través de la lectura de Determining the Speed of Light (1676-1983): An Internalist Study in the Sociology of Science primero en forma tabular (nota: en la fuente original hay una tabla más extensa de la que esta es resumen),