Media

Por ahí se ven cosas como esta:

Avisa del valor máximo, mínimo y medio de la electricidad en la mayor parte de España. Pero lo que llama precio medio no es el precio medio. Llama precio medio al resultado de

select avg(pvpc)
from pvpc_electricidad
where
	date(dia_hora) = '2024-03-12'
;

y no de

select sum(pvpc * kwh) / sum(kwh)
from pvpc_electricidad
where
	date(dia_hora) = '2024-03-12'
;

que sería lo suyo. Nótese cómo, en particular, el precio está positivamente correlacionado con el consumo —si es que el mercado eléctrico funciona como se espera de él— por lo que la primera expresión será siempre menor que la segunda. Es un indicador sesgado.

Es innegable que el rótulo ley del estadístico inconsciente llama la atención. Trata sobre lo siguiente: si la variable aleatoria es $X$ y la medida es $P_X$, entonces, su esperanza se define como

$$E[X] = \int x dP_X(x).$$

Supongamos ahora que $Y = f(X)$ es otra variable aleatoria. Entonces

$$E[Y] = \int y dP_Y(y)$$

para cierta medida (de probabilidad) $P_Y$. Pero es natural, fuerza de la costumbre, dar por hecho que

Antes de explicar el por qué del título de la entrada y justificarla propiamente, permítaseme mostrar esto:

Es una gráfica que muestra la evolución de la altura media de los españoles durante el último siglo, aprox. Los datos son coherentes con la evidencia que muchos tenemos al recordar cómo eran los amigos de nuestros abuelos, los tamaños de las camas de antaño, la altura de las puertas y techos de las casas de pueblo, etc. De los museos antropológicos siempre saco la misma sensación: esa gente era enana, carajo.

Dicen que el brote de inflación que estamos viviendo es atípico (y según algunos, menos preocupante) porque no está generalizada sino concentrada en un número pequeño de productos.

Trae The Economist en su número del 6 de noviembre (de 2021) un artículo al respecto que tiene cierto interés estadístico. Comienza comparando la inflación de ahora con la de otros años donde el incremento de los precios fue, de acuerdo con cómo se computa tradicionalmente la inflación, igual, a través de la distribución de los incrementos de precios sobre las distintas categorías:

El artículo que motiva esta entrada, When U.S. air force discovered the flaw of averages, no lo es tanto sobre la media como sobre la maldición de la multidimensionalidad.

Podría pensarse que es una crítica a la teoría del hombre medio de Quetelet en tanto que niega la existencia de ese sujeto ideal. Pero lo que dice es una cosa sutilmente distinta:

Using the size data he had gathered from 4,063 pilots, Daniels calculated the average of the 10 physical dimensions believed to be most relevant for design, including height, chest circumference and sleeve length.

La respuesta es evidente: unos sí; otros, no. Pero en sitios como este se argumenta desde el promedio.

Que si uno se come un pollo y otro ninguno, son los estadísticos —precisamente, los estadísticos— los que dicen que se han comido medio cada uno. ¡Ya!

Será por deformación profesional, pero en los discursos electorales y particularmente en los recentísimos discursos electorales no dejo de advertir subrepticias referencias a la varianza. Casi siempre, además, presentada negativamente.

Y no, no me refiero únicamente a lo de Gini y sus secuaces.

Aún recuerdo cuando la política (o su manifestación más folclórica y electoralista) hacía más hincapié en la media (de diversos indicadores, para incrementarla, supongo).

Yo, mientras, a contramano: el nombre de mi misma empresa es latín para un concepto muy relacionado con el v-enemigo político.

Se trata de Avinyonet del Penedès: el misterio del pueblo que se hizo rico de golpe y la entradilla lo dice todo:

Los habitantes de la pequeña localidad barcelonesa atribuyen ser los segundos con más renta a un vecino empresario

Y es que la interpretación de la media —salvo en circunstancias muy concretas y, a menudo, abstractas— no es para nada clara.

Tienes dos variables aleatorias positivamente correlacionadas, $latex X$ y $latex Y$ y una muestra de $latex n$ parejas de ellas $latex (x_i, y_i)$.

La esperanza de $latex X$, $latex E(X)$, es conocida y la de $latex Y$ no. Obviamente, la puedes estimar haciendo

$$ E(Y) \sim \frac{1}{n} \sum_i y_i.$$

Sin embargo, la varianza del estimador

$$ E(Y) \sim E(X) \frac{\sum y_i}{\sum x_i}$$

es menor.

Tengo una explicación de la intuición de por qué eso es cierto en lugar de no serlo. Pero como no sé si es suficientemente buena, dejo que alguien proponga la suya en los comentarios.

Si a uno le dicen que la diferencia de medias de determinado atributo entre sujetos de tipo A y sujetos de tipo B es 5, uno tiende a pensar (o, más bien, tengo esa sensación) que la diferencia de dicho atributo entre un representante al azar de A y uno al azar de B será alrededor de 5. Igual porque nos han educado mostrándonos imágenes no muy distintas de

Media

El "precio medio de la electricidad" no es el precio medio de la electricidad

Sobre la llamada ley del estadístico inconsciente

¿Cómo ha evolucionado la altura media de los animales del zoo de Madrid en los últimos años?

Medias ponderadas a lo Uluru

No es tanto sobre la media como sobre la maldición de la multidimensionalidad

¿Están los hogares preparados para una nueva recesión?

Política y varianza

Todo libro de estadística básica debería tener un enlace al este artículo

Un truco para reducir la varianza de un estimador

Lo que las diferencias de medias evocan