Estadísticas creativas: el "peso del paro"

Mirad que trato de abstraerme del mundanal ruido y de las marcianadas de tirios y troyanos. Me he comprado una segunda EPS32, le he instalado Micropython y solo aspiro a que se me deje en paz.

Pero como me ronda en la cabeza escribir algún día cosas en serio sobre sofística estadística, no he podido dejar de lado mis otros entretenimientos un rato para comentar esto:

Los dos gráficos que lo acompañan son:

¿Dejar morir pxR?

R

¿Dejar morir pxR? He ahí la cuestión.

pxR es un paquete de R en CRAN en el que figuro como mantenedor. Es un subproducto de mis antiguas inclinaciones hacia el procomún. Me fue útil para alguna que otra actividad inútil.

El paquete sirve para importar a R datos en el formato Px. Este formato fue concebido en una época en la que aún no existían cosas mejores y mejor pensadas —XML, JSON, datos tidy, etc.—, los ficheros se intercambiaban en disquette (¿se escribía así? ya no recuerdo bien) y casi todo el mundo usaba Windows. Era lo que había y hay que entenderlo; de otra manera, no se comprende casi ninguna de las decisiones de diseño del formato. Que, por otra parte, parece basado en la siguiente pareja de principios funcionales:

Código para resolver "wordles" en español

Este soy yo hoy mismo:

Este es mi script:

carlos@tiramisu:~$ wordle señor
Intento 1 -> seria

   Quedan 2 opciones.
   Las más populares son:
     señor : 228.79
     segur : 0.23

Intento 2 -> señor

Solución en 2 intentos: señor

Mi pequeño script tiende a ganarme. Lo cual me satisface enormemente.

En caso de que a alguien le interese, puede bajárselo de aquí. Existen dos versiones que implementan el mismo algoritmo, una en R y otra en Python. Las instrucciones de uso están en el repo.

¿Qué distribución usar? ¡Examina el proceso generativo!

Tenía pendiente contar algo sobre el (oscuro) artículo A Brief History of Generative Models for Power Law and Lognormal Distributions. Tiene una cosa buena y una mala.

La buena —y más interesante— es que ilustra cómo pensar sobre la conveniencia de usar una distribución determinada a la hora de modelar un fenómeno concreto. Uno de los procedimientos más fértiles consiste en indagar sobre el proceso generativo que conduce a la distribución en cuestión. Así, usamos la distribución normal porque sabemos que la agregación de pequeños errores etc.; o la Poisson porque tenemos una población muy grande cuyos sujetos tiran monedas al aire etc.; etc.

El impacto de la contaminación de los diésel: dos perspectivas sobre el "Volkswagen affaire"

Creo que todo el mundo sabe a qué me refiero con lo del affaire Volkswagen: en 2015 se supo que algunos modelos de ese fabricante contaban con dispositivos que cambiaban el régimen del motor precisamente cuando se realizaban pruebas y medidas de emisiones —la ITV, para entendernos— y las restablecían a sus valores originales al terminarse estas.

Se trata de dispositivo ingenioso. En el fondo, es un sistema que es capaz de distinguir el régimen de funcionamiento normal del vehículo en la calle y el anormal que se produce cuando, parece ser, circula sobre los rodillos con los que se realizan las pruebas en los talleres habilitados. Cuando detecta el rodillo, modifica los parámetros de funcionamiento del motor para optimizar las emisiones; cuando no, utiliza un régimen distinto que prima el rendimiento. En uno de los enlaces que mostraré a continuación se ofrecen más detalles sobre estas pruebas.

Extrapolar es difícil (¿imposible?); hoy, con "sigmoides"

La extrapolación problemática. Que es la manera erudita de decir que ni de coña.

La extrapolación —lineal, en este caso— tiene dos problemas:

  1. No sabemos si el fenómeno va a seguir comportándose de manera lineal fuera del rango de las observaciones.
  2. Aunque lo sea, el error cometido al ajustar una recta usando solo datos de un extremo es muy grande. Lo ideal, de hecho, es tener datos en ambos extremos del intervalo de interés.

[De hecho, creo que lo anterior se puede convertir en un teorema: si tenemos datos $(x_i, y_i)$, el mejor modelo lineal se obtiene cuando la mitad de los $x_i$ son iguales al mínimo de los $x_i$ y la otra mitad, al máximo de los $x_i$.]

Kant: probabilidad y apuestas

Hace tres años mencioné la definición de probabilidad que Savage inculcó en su prole:

My father, Leonard Jimmie Savage, was an early advocate of subjective probability. He encouraged me from a young age to think of the probability of an event as the amount I would pay for a gamble that would pay $100 if the event occurred.

Sam Savage, 2004 (fuente)

Pero hay (!por supuesto!) antecedentes. Kant, en su Crítica de la Razón Pura, escribe (con mi subrayado):

Mañana vuelve a ser el día internacional de la copia de seguridad

Mañana, como cada 31 de marzo, se celebra lo que equivaldría a la navidad de los ficheros, la fecha más señalada para todos ellos. Si yo fuera rey, saldría en la tele dando un discurso con un background youtuber.

Mañana, como cada 31 de marzo, se celebra el día de la copia de seguridad.

Así que ya sabéis qué hacer:

Coda

Revisando mis archivos, vi que ya hablé del asunto en 2015 y 2017. Además, en 2013 (deprecated) y 2019 describí mi infraestructura de copias de seguridad. Entradas a las que tengo que añadir solo que actuamente:

Todos los SE son iguales, pero algunos son más iguales que otros

SE significa arriba_squared errors_, pero lo que aplica a cualquier otro tipo de error, incluso los que son más apropiados que los cuadráticos. El problema de los SE es que se tienden a considerar iguales y por eso se los promedia en engendros como el RMSE y similares. Pero incluso entre los SE hay jerarquías, como evidencia la siguiente historia.

Con lo del covid se pusieron en marcha muchas iniciativas. Una de ellas fue la del COVID-19 Forecast Hub. En ese hub se consolidaron los resultados de muchos modelos relacionados con el covid (relacionados con casos, hospitalizaciones y defunciones) desarrollados por la créme de la créme: MIT, Columbia, Harvard, Google, etc. Todos, sobre el papel, tenían RMSE’s envidiables. Pero ninguno valía para gran cosa. Al final, se ha impuesto la cordura y la página que recogía los resultados de los modelos ha chapado con el siguiente cartelito:

Mi "home server"

Hoy me voy a limitar a publicar una imagen de mi flamante home server corriendo la versión 0.1 de mi panel para el seguimiento del mi consumo eléctrico en tiempo real:

Sin duda, iré desgranando los detalles técnicos del sistemita en próximas entradas.

Reducción del error en tests A/B (y similares)

Hoy, cuatro maneras distintas de realizar un test A/B. Comienzo con unos datos simulados que tienen este aspecto:

set.seed(1)
n <- 1000
test <- c(rep(0, n/2), rep(1, n/2))
y0 <- rnorm(n)
y1 <- y0 + test + rnorm(n)

Ahí:

  • n es el número de sujetos, 1000.
  • test es un vector que indica el tratamiento: 500 en un grupo, 500 en otro.
  • y0 es el valor de/asociado a los sujetos en un periodo anterior al tratamiento.
  • y1 es el valor de los sujetos después del tratamiento. Como se puede ver, está relacionado con el tratamiento en sí y con el valor anterior. Se le ha añadido, además, cierta cantidad de ruido estadístico.

Hay varias maneras de estimar el efecto del tratamiento (o de, como dicen algunos, realizar un test A/B). Voy a mencionar cuatro.

El negocio bancario como corolario del teorema central del límite (y sí, de paso, sobre SVB)

Todo lo que voy a contar aquí es cierto y a la vez falso. Es cierto en primera aproximación —en esa en la que las vacas son esféricas— y falso cuando se examinan los términos de orden superior del desarrollo de Taylor de lo que cuento. Advertido lo cual, comienzo.

I

Los bancos funcionan esencialmente así: reciben dinero de unos clientes y se lo prestan a otros. Ganan dinero por la diferencia en los tipos de interés entre depósitos y préstamos.

De la paradoja de la patata a los neo-Protágoras de la estadística

I

X tiene un 100 kilos de patatas. Las patatas tienen un 99% de agua y las deja orear hasta que tengan solo un 98% de agua. Cuando eso suceda, ¿cuánto pesarán las patatas?

Piénsalo…

Sigue…

¿Seguro?

Hummmm…

Te te lo voy a contar enseguida, pero merece la pena que trates de calcularlo por ti mismo.

Venga…

Vale, te lo digo.

II

Son 50 kilos. Efectivamente,

$$\frac{1}{100 - x} = .02 = \frac{2}{100} = \frac{1}{50}$$