Desde cierto punto de vista, lo ideal a la hora de realizar una prueba estadística es que:
El efecto sea grande. La variación de los sujetos sea pequeña. El tamaño de la muestra sea generoso. Pero solo bajo cierto punto de vista: todas las pruebas estadísticas en que pasa eso ya se han hecho antes. Llevamos cientos de años haciendo ciencia y billones de euros invertidos en ella. Lo que nos enseñan las pruebas estadísticas con un SNR (signal to noise ratio) y posibilidad de extraer nuevas observaciones a bajo coste, ya lo sabemos desde hace tiempo.
I. Las distintas disciplinas estudian aspectos diferentes de la realidad. Para ello crean modelos. Un modelo es una representación teórica y simplificada de un fenómeno real. Por un lado, el territorio; por el otro, el mapa.
Los físicos modelan cómo oscila un péndulo y se permiten obviar cosas como el rozamiento del aire. Los economistas, la evolución del PIB o la inflación. Los biólogos, la absorción de una determinada sustancia por un tejido.
Escribí sobre la paradoja de Lord en 2013 y luego otra vez, tangencialmente, en 2020. Hace poco releí el artículo de Pearl sobre el tema y comoquiera que su visión sobre el asunto es muy distinta de la mía, voy a tratar de desarrollarla.
Aunque supongo que es generalizable, la llamada paradoja de Lord se formuló inicialmente al estudiar y comparar datos antes/después. En su descripción original de mediados de los 60, había niños y niñas a los que se había pesado en junio y en septiembre.
Richard K. Guy tiene un artículo, [The Strong Law of Small Numbers], bastante ameno en el que se encuentran cosas como
que, hay que admitirlo, tienen su público. Pero para el de este blog, será mucho más provechoso este otro extracto:
Desafortunadamente, los civiles (i.e., los no matemáticos) no suelen dar por buenas demostraciones por intimidación. Pero no le falta razón al decir que, en presencia de desinformación, mirar no basta.
I. A veces hay que tomar decisiones (p.e., ¿quién asciende?, ¿hay que hacer una radiografía?, ¿se concede esta hipoteca?, etc.). Esas decisiones, simplificando mucho, se pueden tomar de dos maneras:
Mediante procesos clínicos, donde un experto o conjunto de expertos realiza una evaluación. Mediante procesos actuariales, donde a un algoritmo adecuadamente entrenado y calibrado se le facilitan unos datos para que calcule un scoring. Nota 1: Aquí estoy utilizando nomenclatura (clínico, actuarial) usada por Paul Meehl (véase esto, esto o esto), aunque a los segundos tal vez cabría llamarlos, con más propiedad, estadísticos.
Sin más preámbulos, es así (para apreciar el detalle, conviene abrirla en otra pestaña):
¿Por qué es este gráfico relevante?
Poca gente ha visto cómo se consume electricidad en un hogar con una resolución de unos pocos segundos. A lo más, con una resolución horaria facilitada por la compañía distribuidora. Pero que, obviamente, suaviza y desdibuja los picos. Mucha gente hace y/o tiene que hacer estimaciones de qué potencia contratar. Las heurísticas existentes son, permítaseme decirlo así, una mierda.
Tenía pendiente contar algo sobre el (oscuro) artículo A Brief History of Generative Models for Power Law and Lognormal Distributions. Tiene una cosa buena y una mala.
La buena —y más interesante— es que ilustra cómo pensar sobre la conveniencia de usar una distribución determinada a la hora de modelar un fenómeno concreto. Uno de los procedimientos más fértiles consiste en indagar sobre el proceso generativo que conduce a la distribución en cuestión.
La extrapolación problemática. Que es la manera erudita de decir que ni de coña.
La extrapolación —lineal, en este caso— tiene dos problemas:
No sabemos si el fenómeno va a seguir comportándose de manera lineal fuera del rango de las observaciones. Aunque lo sea, el error cometido al ajustar una recta usando solo datos de un extremo es muy grande. Lo ideal, de hecho, es tener datos en ambos extremos del intervalo de interés.
Hoy, cuatro maneras distintas de realizar un test A/B. Comienzo con unos datos simulados que tienen este aspecto:
set.seed(1) n <- 1000 test <- c(rep(0, n/2), rep(1, n/2)) y0 <- rnorm(n) y1 <- y0 + test + rnorm(n) Ahí:
n es el número de sujetos, 1000. test es un vector que indica el tratamiento: 500 en un grupo, 500 en otro. y0 es el valor de/asociado a los sujetos en un periodo anterior al tratamiento.
Todo lo que voy a contar aquí es cierto y a la vez falso. Es cierto en primera aproximación —en esa en la que las vacas son esféricas— y falso cuando se examinan los términos de orden superior del desarrollo de Taylor de lo que cuento. Advertido lo cual, comienzo.
I Los bancos funcionan esencialmente así: reciben dinero de unos clientes y se lo prestan a otros. Ganan dinero por la diferencia en los tipos de interés entre depósitos y préstamos.
I X tiene un 100 kilos de patatas. Las patatas tienen un 99% de agua y las deja orear hasta que tengan solo un 98% de agua. Cuando eso suceda, ¿cuánto pesarán las patatas?
Piénsalo…
Sigue…
¿Seguro?
Hummmm…
Te te lo voy a contar enseguida, pero merece la pena que trates de calcularlo por ti mismo.
Venga…
Vale, te lo digo.
II Son 50 kilos. Efectivamente,
$$\frac{1}{100 - x} = .
I. Memes Dice la Wikipedia que un meme es es la unidad teórica más pequeña de información cultural1 transmisible de un individuo a otro, de una mente a otra, o de una generación a la siguiente. Sin embargo, suelen conocerse como memes solo aquellos memes que, por algún motivo, debido a algún tipo de característica particular —tanto intrínseca como del cuerpo social en el que se mueven— se difunden como un virus.
I. Por eso de que el Pisuerga pasa por Valladolid y que el diablo, cuando se aburre, mata moscas con el rabo, he instalado un cacharrito de 30 euros en el cuadro eléctrico de mi casa que mide el consumo (vatios, amperios y voltios)en tiempo real. En concreto, guardo medidas cada seis segundos aproximadamente. Mi perfil de consumo (potencia, en kW), sobre el que volveré luego, es así:
II. En esto de la electricidad doméstica existen tres potencias —$P_r$, $P_c$ y $P_i$— que, en situaciones normales, cumplen la regla