Mediana

Una aplicación inesperada de la detección de "outliers"

Es esta:

La foto está construida apilando varias tomadas secuencialmente. Cada píxel que se ve procede de alguna de las originales. En concreto, en la coordenada $ij$ se selecciona uno de los píxeles $ij$ de alguna de las de partida.

Para conseguir el efecto deseado, el píxel seleccionado es no otro que el outlier. En este caso concreto, la antimediana, el más alejado de la mediana.

La foto original, una discusión detallada del algoritmo, etc., puede consultarse en Apilado por ‘antimediana’ para replicar sujetos en movimiento con Photoshop.

El "nowcast" de MOMO, por qué sobreestima en el año del coronavirus y qué pasará en los siguientes si no se remedia

Hablo de MOMO de nuevo. Esta vez por culpa de la sobreestimación de las defunciones esperadas:

¿Cómo estima MOMO las defunciones esperadas? Lo voy a explicar en tres pasos que se afinan secuencialmente.

Paso 1: Imaginemos que queremos realizar lo que algunos llaman el nowcast correspondiente al día de hoy, 18 de octubre de 2020 para alguna de las series que monitoriza MOMO. Podría tomar la mediana de los días 18 de octubre de los años 2019, 2018,… hasta, no sé, 2014.

La media, medidas de centralidad y distancias

El problema de hoy viene sugerido por la manera de encontrar un valor central –una medida de centralidad– en una serie de números $latex x_1,\dots, x_n$. A uno se le viene a la mente la media de dichos puntos, por supuesto. Pero la media no es sino el valor $latex \theta$ que minimiza

$$ \sum_i (x_i - \theta)^2.$$

En lugar de minimizar la distancia al cuadrado entre ese punto central y los de la serie, podríamos usar otras funciones. Es sabido que si tratamos de minimizar

Medianas ponderadas en R

La mediana de 1:3 es 2. Pero puede ser que queramos dar a 1:3 los pesos 2, 1, 2. En ese caso, el cálculo de la mediana sigue siendo sencillo (y sigue siendo 2). Pero la situación puede complicarse más.

Mientras los pesos sean enteros, todavía pueden usarse trucos:

x <- 1:3
pesos <- c(2,1,2)
median(rep(x, times = pesos ))

¿Pero qué hacemos cuando hay pesos fraccionarios? Bueno, en realidad, podemos ordenar:

n <- 1000

x <- runif(n)
pesos <- runif(n)
o <- order(x)
x.o <- x[o]
pesos.o <- pesos[o]
x.o[min(which(cumsum(pesos.o) > .5 * sum(pesos.o)))]

Pero me parece más limpio usar el paquete quantreg:

La media, la mediana y el Bundesbank

El Banco Central Europeo publicó un estudio sobre la riqueza de los hogares europeos en abril de 2013. A partir de él, el Bundesbank publicó otro informe que subrayaba las diferencias en riqueza entre los hogares alemanes y, supongo que entre otros, los españoles.

El informe de BCE recogía la media y la mediana del patrimonio de los hogares por países (junto con otras variables adicionales, como la renta, el nivel de endeudamiento, etc.). Obviamente, las medias son superiores a las medianas en prácticamente todas esas variables. El Bundesbank, en su informe, omitía las medias y presentaba únicamente las medianas, magnitudes que contribuían a subrayar una presunta pobreza relativa de los hogares alemanes respecto a los españoles.

La media y el riesgo (de nuevo)

Hoy me han preguntado una cosa algo rara. Era alguien del departamento de riesgos de una conocida entidad financiera que quería saber cómo calcular (con SAS) la media del LTV. El LTV, aunque tiene otras acepciones, significa en este contexto loan to value, el cociente entre el valor de un préstamo y valor del colateral que lo respalda.

(Este LTV tiene que ver con el famoso le financiamos el 80% del valor de la inversión de otras épocas. Un préstamo con un LTV bajo es seguro: el banco puede con más o menos facilidad recuperar el 100% del capital prestado; un préstamo con un LTV alto es mucho más problemático.)

Sobre la media y la mediana

Esta entrada viene a cuento de una discusión en un grupo de Linkedin. Alguien preguntó literalmente:

Mean as an estimator of parameter in case of non-normal/skewed distribution? My question is a bit tricky :) What could be the arguments for mean (simple no-weighted average) when the parameter distribution is non-normal?

Supongo que mis lectores habrán advertido que la pregunta está mal formulada. Alguien la reescribió en términos más precisos (aunque distintos) de la siguiente manera: