Outliers

"Outliers": las dos aproximaciones

Leyendo Taking Outlier Treatment to the Next Level me entretuve en pensar cómo la literatura sobre el tratamiento de los outliers tiende a ignorar y confundir los dos modos —o más bien, circunstancias— de enfrentarse a ellos. Por ejemplo, en ese enlace se discute alrededor de los datos y el modelo representado en, que, como veremos, pertenece a lo que llamo primer modo usando técnicas propias del segundo. Obviamente, el segundo tiene que poder ilustrarse con datos concretos.

Una aplicación inesperada de la detección de "outliers"

Es esta: La foto está construida apilando varias tomadas secuencialmente. Cada píxel que se ve procede de alguna de las originales. En concreto, en la coordenada $ij$ se selecciona uno de los píxeles $ij$ de alguna de las de partida. Para conseguir el efecto deseado, el píxel seleccionado es no otro que el outlier. En este caso concreto, la antimediana, el más alejado de la mediana. La foto original, una discusión detallada del algoritmo, etc.

Autoencoders: una serie de lecciones aprendidas

Estos días pasados he tenido que usar autoencoders como mecanismos para reducir la dimensión de una serie de conjuntos de datos. El principal problema al que me he enfrentado —cómo no— ha sido el de diseñar una arquitectura adecuada para el problema en cuestión. El principal motivo es que la práctica totalidad de los tutoriales, ejemplos, etc. disponibles por ahí tienen como aplicación principal el tratamiento de imágenes y en mi caso no.

Estadística vs siquiatría: la aparente contradicción, la profunda síntesis

[Nota: esta entrada está indirectamente motivada por mi asistencia a la presentación (y posterior adquisición) del libro “Los peligros de la moralidad” de Pablo Malo hoy día 3 de diciembre de 2021.] Desde Freud hasta Pablo Malo son muchos los siquiatras que han intervenido en el debate público aportando su visión sobre distintos temas. Desde ¿quién? hasta ¡tantos! son innumerables los estadísticos que han intervenido (generalmente, de modo implícito) en el debate público aportando su visión sobre distintos temas.

La interpretación de "significativo" en un caso muy concreto

Comienzo por el final: En el gráfico anterior se aprecian unos datos, generados mediante n <- 100 x <- 1:n y_base <- cos(2 * pi * x / 100) y <- y_base + rnorm(n, 0, .4) datos <- data.frame(x = x, y_base = y_base, y = y, cos1 = cos(2 * pi * x / 100), cos2 = cos(4 * pi * x / 100)) a los que se ha ido añadiendo un ruido progresivamente, es decir, una serie de outliers artificiales.

Anomalías, cantidad de información e "isolation forests"

Identificar a un tipo raro es sencillo: el que lleva tatuada a su madre en la frente. Identificar a un tipo normal es más complicado: altura… normal, pelo… ¿moreno? Es… como… normal, ni gordo ni flaco… Identificar transacciones de tarjeta normales es prolijo: gasta más o menos como todos en supermercados, un poco más que la media en restaurantes, no tiene transacciones de gasolineras… Identificar transacciones fraudulentas es (o puede ser) sencillo: gasta miles de euros en las farmacias de los aeropuertos y nada en otros sitios.

El "nowcast" de MOMO, por qué sobreestima en el año del coronavirus y qué pasará en los siguientes si no se remedia

Hablo de MOMO de nuevo. Esta vez por culpa de la sobreestimación de las defunciones esperadas: Para Periodistas y/o personas interesadas impacto #COVID19 👉MOMO disminuye artificialmente exceso fallecidos en 8000-10000 entre 11/3-9/5 y 21/6-HOY 👉Solo en Septiembre 1200-1600 exceso fallecidos menos sobre valor real ¿cómo lo hace?Aumentado concepto fallecidos esperados pic.twitter.com/DmfR1JI8ws — buceadorestadi3 (@buceadorestadi3) October 16, 2020 ¿Cómo estima MOMO las defunciones esperadas? Lo voy a explicar en tres pasos que se afinan secuencialmente.

Todo libro de estadística básica debería tener un enlace al este artículo

Se trata de Avinyonet del Penedès: el misterio del pueblo que se hizo rico de golpe y la entradilla lo dice todo: Los habitantes de la pequeña localidad barcelonesa atribuyen ser los segundos con más renta a un vecino empresario Y es que la interpretación de la media —salvo en circunstancias muy concretas y, a menudo, abstractas— no es para nada clara.

¿Hay terroristas islámicos en Poissonistán?

La distribución binomial (de parámetro n, p) es una suma de n variables aleatorias de Bernoulli independientes de parámetro p. Independientes, reitero. La distribución de Poisson es aproximadamente, una distribución binomial con un n muy grande y un p muy pequeño. Los eventos subyacentes siguen siendo independientes, reitero. Viene esto al caso de una tabla que ha circulado por Twitter, en la que se comparan estimaciones de los parámetros $latex \lambda$ de una serie de distribuciones de Poisson… como si todas lo fuesen.

Detección de "outliers" locales

Aunque outlier local parezca oxímoron, es un concepto que tiene sentido. Un outlier es un punto dentro de un conjunto de datos tan alejado del resto que diríase generado por un mecanismo distinto que el resto. Por ejemplo, puedes tener las alturas de la gente y alguna observación que parece producto de otra cosa como, por ejemplo, errores mecanográficos en la transcripción. Un outlier está lejos del resto. Pero, ¿cuánto?

Demasiado bueno para ser cierto

O el porqué de la importancia de los outliers. Hace unos días me presentaron unos datos. Demasiado buenos para ser ciertos. Casi seguro que reflejan un efecto que no es el que se quiere medir. Estaban muy fuera de rango. Leí los 93 folios del informe de Gotham sobre Gowex. Si algo debió llamar la atención de esa gente era que la información pública de Gowex estaba plagada de outliers: consistía en una sistemática comparación de ciertas métricas públicas de la empresa con las de sus competidores.

¡Qué mala suerte tengo con las anomalías!

El siempre muy benéfico Banco de Santander me ha proporcionado —onerosamente: veráse el porqué— un conjunto de datos con el que ilustrar a los lectores de este blog en el uso del paquete outliers de R. Los datos son los siguientes: dia <- 17:26 precio <- 10 + c( 22, 21, 39, 18, 24, 26, 26,26,29, 28 ) / 100 Los días son los discurridos desde que di una orden de adquisición de un fondo de inversión a través de dicha entidad financiera hasta que tuve constancia de que se había completado: el dinero se había adeudado de la cuenta corriente y las participaciones, aparecían listadas en la cuenta de valores.