El "precio medio de la electricidad" no es el precio medio de la electricidad
Por ahí se ven cosas como esta:
Avisa del valor máximo, mínimo y medio de la electricidad en la mayor parte de España. Pero lo que llama precio medio no es el precio medio. Llama precio medio al resultado de
select avg(pvpc)
from pvpc_electricidad
where
date(dia_hora) = '2024-03-12'
;
Sobre la llamada ley del estadístico inconsciente
Es innegable que el rótulo
ley del estadístico inconsciente
llama la atención. Trata sobre lo siguiente: si la variable aleatoria es $X$ y la medida es $P_X$, entonces, su esperanza se define como
$$E[X] = \int x dP_X(x).$$
Supongamos ahora que $Y = f(X)$ es otra variable aleatoria. Entonces
$$E[Y] = \int y dP_Y(y)$$
para cierta medida (de probabilidad) $P_Y$. Pero es natural, fuerza de la costumbre, dar por hecho que
¿Cómo ha evolucionado la altura media de los animales del zoo de Madrid en los últimos años?
Antes de explicar el por qué del título de la entrada y justificarla propiamente, permítaseme mostrar esto:
Es una gráfica que muestra la evolución de la altura media de los españoles durante el último siglo, aprox. Los datos son coherentes con la evidencia que muchos tenemos al recordar cómo eran los amigos de nuestros abuelos, los tamaños de las camas de antaño, la altura de las puertas y techos de las casas de pueblo, etc. De los museos antropológicos siempre saco la misma sensación: esa gente era enana, carajo.
Medias ponderadas a lo Uluru
Dicen que el brote de inflación que estamos viviendo es atípico (y según algunos, menos preocupante) porque no está generalizada sino concentrada en un número pequeño de productos.
Trae The Economist en su número del 6 de noviembre (de 2021) un artículo al respecto que tiene cierto interés estadístico. Comienza comparando la inflación de ahora con la de otros años donde el incremento de los precios fue, de acuerdo con cómo se computa tradicionalmente la inflación, igual, a través de la distribución de los incrementos de precios sobre las distintas categorías:
No es tanto sobre la media como sobre la maldición de la multidimensionalidad
El artículo que motiva esta entrada, When U.S. air force discovered the flaw of averages, no lo es tanto sobre la media como sobre la maldición de la multidimensionalidad.
Podría pensarse que es una crítica a la teoría del hombre medio de Quetelet en tanto que niega la existencia de ese sujeto ideal. Pero lo que dice es una cosa sutilmente distinta:
Using the size data he had gathered from 4,063 pilots, Daniels calculated the average of the 10 physical dimensions believed to be most relevant for design, including height, chest circumference and sleeve length.
¿Están los hogares preparados para una nueva recesión?
La respuesta es evidente: unos sí; otros, no. Pero en sitios como este se argumenta desde el promedio.
Que si uno se come un pollo y otro ninguno, son los estadísticos —precisamente, los estadísticos— los que dicen que se han comido medio cada uno. ¡Ya!
Política y varianza
Será por deformación profesional, pero en los discursos electorales y particularmente en los recentísimos discursos electorales no dejo de advertir subrepticias referencias a la varianza. Casi siempre, además, presentada negativamente.
Y no, no me refiero únicamente a lo de Gini y sus secuaces.
Aún recuerdo cuando la política (o su manifestación más folclórica y electoralista) hacía más hincapié en la media (de diversos indicadores, para incrementarla, supongo).
Todo libro de estadística básica debería tener un enlace al este artículo
Se trata de Avinyonet del Penedès: el misterio del pueblo que se hizo rico de golpe y la entradilla lo dice todo:
Los habitantes de la pequeña localidad barcelonesa atribuyen ser los segundos con más renta a un vecino empresario
Y es que la interpretación de la media —salvo en circunstancias muy concretas y, a menudo, abstractas— no es para nada clara.
Un truco para reducir la varianza de un estimador
Tienes dos variables aleatorias positivamente correlacionadas, $latex X$ y $latex Y$ y una muestra de $latex n$ parejas de ellas $latex (x_i, y_i)$.
La esperanza de $latex X$, $latex E(X)$, es conocida y la de $latex Y$ no. Obviamente, la puedes estimar haciendo
$$ E(Y) \sim \frac{1}{n} \sum_i y_i.$$
Sin embargo, la varianza del estimador
$$ E(Y) \sim E(X) \frac{\sum y_i}{\sum x_i}$$
es menor.
Tengo una explicación de la intuición de por qué eso es cierto en lugar de no serlo. Pero como no sé si es suficientemente buena, dejo que alguien proponga la suya en los comentarios.
Lo que las diferencias de medias evocan
Si a uno le dicen que la diferencia de medias de determinado atributo entre sujetos de tipo A y sujetos de tipo B es 5, uno tiende a pensar (o, más bien, tengo esa sensación) que la diferencia de dicho atributo entre un representante al azar de A y uno al azar de B será alrededor de 5. Igual porque nos han educado mostrándonos imágenes no muy distintas de
Un problema: cómo muestrear histogramas con medias. La vía de los trapecios
Me refiero muy impropiamente con histogramas con medias a algo parecido a
que son resúmenes de datos en los que aparecen no solo intervalos sino también las medias correspondientes a los sujetos dentro de esos intervalos.
Si uno quiere hacer cosas con esos datos tiene una vía que consiste en muestrear el histograma. Pero la media en cada intervalo será su punto central, no necesariamente su valor medio conocido.
Así se inventó el nudo gordiano del "hombre medio"
Lo cuenta muy bien Todd Rose en How the Idea of a ‘Normal’ Person Got Invented.
Hay tres grandes eras en la estadística moderna:
- La queteliana, resumida en la imagen del hombre medio: existe un prototipo sobre el que, tal vez, se consideran variaciones. Es decimonónica, pero colea.
- La kamediana, que es una versión pizza partida en ocho de la anterior. Es de mitad del siglo pasado y perdura en paleomentes.
- La contemporánea, que contempla cada sujeto en su individualidad (aunque inserta en su circunstancia). Es propia del big data bien hecho.
Que se desenvuelva exige deshacer (¿cortar a tajos?) un par de nudos gordianos.
Experimentos con "extremely small data": la media muestral de pocas betas
Aquí, contracorriente. Dejamos aparcado el big data y le damos a lo que nos da de comer. Entre otras cosas, este pequeño experimento con muy pequeños datos (¿tres?).
La aplicación es real. Y los datos pequeños porque son carísimos.
Se puede suponer que tienen distribución beta de parámetros desconocidos. Nos interesa la media muestral de unas pocas observaciones: dos, tres, cuatro,… En particular, qué distribución tiene.
Si fuesen muchos, podríamos aplicar el teorema central del límite (que funciona estupendamente incluso con valores no muy grandes). Pero la suma de pocas observaciones beta no tiene una distribución con nombre (que yo sepa). Pero podemos usar un viejo truco (parecido al de la aproximación de Welch para el número de grados de libertad de la prueba de Student cuando las varianzas son desiguales):
1/3
»