Estadística

Correlaciones insospechadas: de la geometría moderna al catalán Hernán Cortés

Hace muchos, muchos años, era yo un fan de la Geometría Moderna de Dubrovin, Fomenko y Novikov.

geometria_moderna

Fomenko, además de matemático de talento, es un chalado. Su chaladura se llama Nueva Cronología, una seudoteoría según la cual la historia de la humanidad es mucho más breve de lo que recoge la historia oficial y que las historias que conocemos de tiempos muy remotos (p.e., hace 2000 años) no son sino reformulaciones deformadas de historias mucho más recientes.

Ayer me puse el sombrero negro

Ayer tuve una visita: un amigo me pidió que le echara una mano a otro que andaba muy perdido con su tesis de máster. No era estadístico pero estaba construyendo regresiones y pruebas de hipótesis y no entendía los resultados. Como a veces pasa, había comenzado por las conclusiones (tal vez razonables) con la esperanza de que los datos acabasen dándole la razón.

Y se la daban… salvo por un pequeño detalle: aunque significativo, el coeficiente de la corrupción tenía el signo contrario.

Voronois con distintas distancias

Especulando sobre la diferencia en la práctica entre distintas métricas ($l_1$, $l_2$, $l_\infty$, etc.), construi una serie de diagramas de Voronoi usado métricas arbitrarias.

En la Wikipedia se comparan gráficamente $l_1$, $l_2$ (o euclídea y Manhattan). Mi código,

library(data.table)
library(reshape2)
library(grid)

n <- 20
dim.image <- 1000
puntos <- data.frame(id = 1:n,
                      x0 = runif(n) * dim.image,
                      y0 = runif(n) * dim.image)
colores <- rainbow(n)

voronoi <- function(p){
  tmp <- data.table(expand.grid(
      x = 1:dim.image,
      y = 1:dim.image, id = 1:n), key = "id")
  tmp <- merge(tmp, puntos, by = "id")

  distancia <- function(a, b, c, d, p)
    (abs(a-c)^p + abs(b-d)^p)^(1/p)

  tmp$distancia <- distancia(tmp$x,
    tmp$y, tmp$x0, tmp$y0, p)
  tmp[, rank := rank(distancia, ties = "random"),
    by = c("x", "y")]

  rejilla <- tmp[tmp$rank == 1,]
  rejilla$x0 <- rejilla$y0 <-
    rejilla$distancia <- rejilla$rank <- NULL

  rejilla$color <- colores[rejilla$id]

  imagen <- as.matrix(dcast(rejilla, x ~ y, value.var = "color")[,-1])

  grid.raster(imagen)
}

permite usar más en función del parámetro p.

Prioris, ¿subjetivas?

Dentro de unos días voy a hablar de estadística bayesiana en Machine Learning Spain. Plantearé una distribución a priori muy poco informativa:

alfa ~ gamma(10, 1);
beta ~ gamma(10, 1);

Me estoy preparando sicológicamente para que alguien me dé guerrita con lo de la subjetividad de las distribuciones a priori. Si tal es el caso, replicaré lo que sigue.

Hace unos días quise replicar el análisis. Pero la URL de la que bajo los datos dejó de contener los de la liga del año anterior y cargó los correspondientes al inicio (¿dos jornadas? ¿tres?) de la actual. ¡Apenas había datos!

Respuestas distintas, ¿a la misma pregunta?

Hará ya un par de años, un señor muy importante divulgaba en su bitácora los resultados de un estudio relativo a la educación en España que acababa de publicar. Dedicaba una pequeña parte de la entrada a cuestiones metodológicas y el resto a cuestiones normativas: dado que he encontrado esto y aquello con un p-valor de tal, no otro remedio queda que aplicar todas estas medidas que aquí enumero, era el resumen de todo.

Todos los errores son iguales, pero algunos son más iguales que otros

Por eso, en la práctica, el RMSE y similares son irrelevantes. Aunque eso, desgraciadamente, no quiere decir que no sean utilizados.

Pero en muchas ocasiones no es el error medio la medida importante. A menudo, uno quiere detectar outliers: una variable de interés tiene un comportamiento normal la mayor parte del tiempo; pero en ocasiones, en raras ocasiones, cuando supera determinado umbral, produce catástrofes. Dejarse guiar por el RMSE (o similares) generaría una peligrosa sensación de seguridad: detectaría la normalidad; pero la la anormalidad, lo verdaderamente interesante, le resultaría inasequible.

¿Estamos todos anuméricos o qué?

Este es el número (por año) de condenados por provocar incendios forestales en España (según Civio):

condenados_incendios

Según la misma página, en esos años ha habido 223.783 incendios forestales, de los cuales el 55% fueron intencionados.

Pero a nadie se le ocurre criticar a Civio y acusarlo de [incluye aquí tu acusación de incorrección política favorita] por publicar esas cifras bajo la premisa de que solo pueden catalogarse como intencionados el 0.369% de ellos (número de condenados entre número total de incendios).

Ajuste de probabilidades en regresiones logísticas bajo sobremuestreo ( y otros)

En ocasiones, el conjunto de datos sobre el que se ajusta una regresión logística está desequilibrado con respecto a la población subyacente. Por ejemplo, puede suceder que la tasa de casos positivos en los datos sea del 20% mientras que en la población general es del 5%.

Esto puede suceder por varios motivos. El sobremuestreo es uno de ellos: se sobremuestrea cuando se toman, por ejemplo, todos los casos positivos y solo un subconjunto de los negativos.

Explorando la desigualdad en Medialab-Prado

Hay una convocatoria abierta en Medialab-Prado para proponer (primero) y desarrollar (más tarde) proyectos que exploren la desigualdad.

Los detalles están en el enlace anterior, pero traslado aquí los más urgentes:

  • Los talleres se desarrollarán del 23 al 25 de octubre y del 11 al 13 de diciembre de 2015.
  • La convocatoria está abierta del 15 de julio al 15 de septiembre.

Supongo que conocéis el chiste del estadístico y el pollo: que si una persona se come uno y otra ninguno, vendrá aquel y dirá que ambos comieron (en promedio) medio. Esta es una ocasión en que podemos reivindicar lo contrario y aportar nuestra experiencia al respecto.