Estadística

¿Y si calculamos la potencia de un test a posteriori?

Esta entrada continúa esta otra y describe un cambio realizado en la app para ilustrar qué ocurre —spoiler: nada bueno— cuando se calcula el poder de un test a posteriori, es decir, usando como estimaciones el efecto y su ruido los valores observados.

Como comprobará quien use la herramienta, puede ocurrir casi cualquier cosa. Y, en particular, para potencias de partida pequeña, la estimación de la potencia a posteriori es una enorme sobreestimación de la real cuando la prueba es significativa.

Si tus datos son minúsculos y están hipersesgados, no los tires a la basura: aquí te contamos cómo reciclarlos.

I.

Supongamos que X es una población determinada. A alguien le interesa estudiar cierto aspecto de ella. Lo que procede es:

  1. Muestrear X adecuadamente.
  2. Medir los parámetros de interés en la muestra.
  3. Aplicar técnicas de inferencia estadística.
  4. Redactar las conclusiones pertinentes.

II.

Supongamos que a alguien le interesa aprender sobre cierto aspecto de una población X. Lo que tiene que hacer es buscar publicaciones en que lo hayan estudiado como se indica en I. Seguramente hay muchas más fuentes que hablen de ese aspecto de la población X, pero si no se han redactado siguiendo el esquema anterior o no están basados en fuentes primarias que lo hayan hecho así, solo acertarán, si lo hacen, de casualidad.

¿Qué catástrofes cabe esperar de las pruebas estadísticas con poca potencia?

Desde cierto punto de vista, lo ideal a la hora de realizar una prueba estadística es que:

  • El efecto sea grande.
  • La variación de los sujetos sea pequeña.
  • El tamaño de la muestra sea generoso.

Pero solo bajo cierto punto de vista: todas las pruebas estadísticas en que pasa eso ya se han hecho antes. Llevamos cientos de años haciendo ciencia y billones de euros invertidos en ella. Lo que nos enseñan las pruebas estadísticas con un SNR (signal to noise ratio) y posibilidad de extraer nuevas observaciones a bajo coste, ya lo sabemos desde hace tiempo. Lo que queda por averiguar de ese antílope del que ya se han saciado la manada de leones que lo cazó son las vísceras, tendones y huesos que roen las hienas. Quienes se dedican a la ciencia están abocados, por aquello de la originalidad, a estudiar problemas en los que algunas de las condiciones anteriores deja de cumplirse. Es decir, muchos de los resultados publicados han estudiado datos en los que:

Tutorial de numpyro (I): modelos probabilísticos

I.

Las distintas disciplinas estudian aspectos diferentes de la realidad. Para ello crean modelos. Un modelo es una representación teórica y simplificada de un fenómeno real. Por un lado, el territorio; por el otro, el mapa.

Los físicos modelan cómo oscila un péndulo y se permiten obviar cosas como el rozamiento del aire. Los economistas, la evolución del PIB o la inflación. Los biólogos, la absorción de una determinada sustancia por un tejido. Los ingenieros, el comportamiento aerodinámico de un prototipo. Etc.

La paradoja de Lord, de nuevo

Escribí sobre la paradoja de Lord en 2013 y luego otra vez, tangencialmente, en 2020. Hace poco releí el artículo de Pearl sobre el tema y comoquiera que su visión sobre el asunto es muy distinta de la mía, voy a tratar de desarrollarla.

Aunque supongo que es generalizable, la llamada paradoja de Lord se formuló inicialmente al estudiar y comparar datos antes/después. En su descripción original de mediados de los 60, había niños y niñas a los que se había pesado en junio y en septiembre. El problema (y la paradoja) aparecían al tratar de modelar esa variación de peso según el sexo.

La ley fuerte de los números pequeños

Richard K. Guy tiene un artículo, [The Strong Law of Small Numbers], bastante ameno en el que se encuentran cosas como

que, hay que admitirlo, tienen su público. Pero para el de este blog, será mucho más provechoso este otro extracto:

Desafortunadamente, los civiles (i.e., los no matemáticos) no suelen dar por buenas demostraciones por intimidación. Pero no le falta razón al decir que, en presencia de desinformación, mirar no basta.

¿Estamos tratando justamente a los "algoritmos"?

I.

A veces hay que tomar decisiones (p.e., ¿quién asciende?, ¿hay que hacer una radiografía?, ¿se concede esta hipoteca?, etc.). Esas decisiones, simplificando mucho, se pueden tomar de dos maneras:

  • Mediante procesos clínicos, donde un experto o conjunto de expertos realiza una evaluación.
  • Mediante procesos actuariales, donde a un algoritmo adecuadamente entrenado y calibrado se le facilitan unos datos para que calcule un scoring.

Nota 1: Aquí estoy utilizando nomenclatura (clínico, actuarial) usada por Paul Meehl (véase esto, esto o esto), aunque a los segundos tal vez cabría llamarlos, con más propiedad, estadísticos. Y sí, se refiere a los que el vulgo llama algoritmos.

48 horas de consumo doméstico real de electricidad

Sin más preámbulos, es así (para apreciar el detalle, conviene abrirla en otra pestaña):

¿Por qué es este gráfico relevante?

  • Poca gente ha visto cómo se consume electricidad en un hogar con una resolución de unos pocos segundos.
  • A lo más, con una resolución horaria facilitada por la compañía distribuidora. Pero que, obviamente, suaviza y desdibuja los picos.
  • Mucha gente hace y/o tiene que hacer estimaciones de qué potencia contratar. Las heurísticas existentes son, permítaseme decirlo así, una mierda.
  • Respecto al punto anterior, véase esto.

Y, finalmente, toda esa gente que está planteándose colocar paneles en el tejado, debe tener en cuenta de que el problema matemático al que se reduce el asunto consiste en machear esa curva que muestro con otra que, con suerte, tiene un perfil similar a este:

¿Qué distribución usar? ¡Examina el proceso generativo!

Tenía pendiente contar algo sobre el (oscuro) artículo A Brief History of Generative Models for Power Law and Lognormal Distributions. Tiene una cosa buena y una mala.

La buena —y más interesante— es que ilustra cómo pensar sobre la conveniencia de usar una distribución determinada a la hora de modelar un fenómeno concreto. Uno de los procedimientos más fértiles consiste en indagar sobre el proceso generativo que conduce a la distribución en cuestión. Así, usamos la distribución normal porque sabemos que la agregación de pequeños errores etc.; o la Poisson porque tenemos una población muy grande cuyos sujetos tiran monedas al aire etc.; etc.

Extrapolar es difícil (¿imposible?); hoy, con "sigmoides"

La extrapolación problemática. Que es la manera erudita de decir que ni de coña.

La extrapolación —lineal, en este caso— tiene dos problemas:

  1. No sabemos si el fenómeno va a seguir comportándose de manera lineal fuera del rango de las observaciones.
  2. Aunque lo sea, el error cometido al ajustar una recta usando solo datos de un extremo es muy grande. Lo ideal, de hecho, es tener datos en ambos extremos del intervalo de interés.

[De hecho, creo que lo anterior se puede convertir en un teorema: si tenemos datos $(x_i, y_i)$, el mejor modelo lineal se obtiene cuando la mitad de los $x_i$ son iguales al mínimo de los $x_i$ y la otra mitad, al máximo de los $x_i$.]

Reducción del error en tests A/B (y similares)

Hoy, cuatro maneras distintas de realizar un test A/B. Comienzo con unos datos simulados que tienen este aspecto:

set.seed(1)
n <- 1000
test <- c(rep(0, n/2), rep(1, n/2))
y0 <- rnorm(n)
y1 <- y0 + test + rnorm(n)

Ahí:

  • n es el número de sujetos, 1000.
  • test es un vector que indica el tratamiento: 500 en un grupo, 500 en otro.
  • y0 es el valor de/asociado a los sujetos en un periodo anterior al tratamiento.
  • y1 es el valor de los sujetos después del tratamiento. Como se puede ver, está relacionado con el tratamiento en sí y con el valor anterior. Se le ha añadido, además, cierta cantidad de ruido estadístico.

Hay varias maneras de estimar el efecto del tratamiento (o de, como dicen algunos, realizar un test A/B). Voy a mencionar cuatro.

El negocio bancario como corolario del teorema central del límite (y sí, de paso, sobre SVB)

Todo lo que voy a contar aquí es cierto y a la vez falso. Es cierto en primera aproximación —en esa en la que las vacas son esféricas— y falso cuando se examinan los términos de orden superior del desarrollo de Taylor de lo que cuento. Advertido lo cual, comienzo.

I

Los bancos funcionan esencialmente así: reciben dinero de unos clientes y se lo prestan a otros. Ganan dinero por la diferencia en los tipos de interés entre depósitos y préstamos.

De la paradoja de la patata a los neo-Protágoras de la estadística

I

X tiene un 100 kilos de patatas. Las patatas tienen un 99% de agua y las deja orear hasta que tengan solo un 98% de agua. Cuando eso suceda, ¿cuánto pesarán las patatas?

Piénsalo…

Sigue…

¿Seguro?

Hummmm…

Te te lo voy a contar enseguida, pero merece la pena que trates de calcularlo por ti mismo.

Venga…

Vale, te lo digo.

II

Son 50 kilos. Efectivamente,

$$\frac{1}{100 - x} = .02 = \frac{2}{100} = \frac{1}{50}$$