Estadística

GAM

Hoy he dado una charla en la Carlos III. En la comida me han preguntado, algo extrañados, por un ejemplo que había enseñado en el que ajustaba un modelo usando GAMs.

El motivo era que quienes preguntaban —que trabajan con ese tipo de modelos— encuentran muy difícil, se ve, convencer a otros usuarios de los métodos estadísticos (economistas, etc.) de adoptarlos. Yo he contestado que hace unos pocos días a unos primíparos que acababan de ajustar sus tres primeros lms con R les invité a probar GAMs con sus datos. ¿Por qué no?

Ad more geometrico

De la manera geométrica. No sé si fue Spinoza o si se le adelantó alguno el que trató de explicar la filosofía y la ética como hacían los geómetras con sus puntos, rectas y arcos. Es cosa del XVIII y del XIX, si mal no recuerdo, el pretender trasladar esa manera de pensar científica y racional que tantos avances había proporcionado en física, química, etc. a las ciencias humanas.

Ayer viví una reedición. Acudí a las charlas de Machine Learning Spain. Una de ellas fue muy buena: ingenieros aeronáuticos explicando métodos que utilizaban para optimizar estudios de aerodinámica combinando resultados de simulaciones matemáticas con mediciones en túneles de viento.

El g-test para tablas de contingencia

Hace unos días recibí una consulta de una vieja amiga lingüista. Ella trabaja en algo que creo que se llama cocolocación: el estudio de palabras que aparecen o que tiendan a aparecer juntas en textos. Digamos que es algo así como una correlación o una regla de asociación.

Los lingüistas están muy interesados en ese tipo de fenómenos. Tradicionalmente (cada gremio tiene su librillo) usan la información mutua. Pero, al final, lo que tienen es una tabla de contingencia: situaciones en que aparece una, la otra, ambas o ninguna de las palabras.

Del hombre medio a la factura media

Del hombre medio (u homme moyen de Quetelet para los eruditos) ya hemos hablado antes: es un concepto decimonónico, de la época de los albores de la estadística, que permite argumentar alrededor de una construcción inexistente: el sujeto que está en la media de todo, la medida de la normalidad.

Pero buscad “factura media” en Google (entrecomillado) y veréis como en el siglo XXI todavía se argumenta alrededor de construcciones ideales similares. Para determinar si un servicio sube o baja de precio, reguladores, periodistas, asociaciones de consumidores, etc. examinan la facture moyenne.

La funesta manía de querer acertar

Vayan dos cosas por delante:

  • Que la de pretender acertar es una perniciosa manía. Más loable es la de tratar de evitar un fallo catastrófico.
  • Que recomiendo muy mucho seguir las cosas que hace Kiko Llaneras.

Dicho lo cual…

Kiko Llaneras ha estado elaborando predicciones del resultado de las elecciones en Cataluña durante la precampaña. Pueden verse aquí. El documento enlazado incluye una discusión de la metodología.

A diferencia de los más de los comentaristas, Kiko ofrece, más que pretendidas certezas, distribuciones. Tal y como hacen los que más saben. Es algo aplaudible.

Correlaciones insospechadas: de la geometría moderna al catalán Hernán Cortés

Hace muchos, muchos años, era yo un fan de la Geometría Moderna de Dubrovin, Fomenko y Novikov.

geometria_moderna

Fomenko, además de matemático de talento, es un chalado. Su chaladura se llama Nueva Cronología, una seudoteoría según la cual la historia de la humanidad es mucho más breve de lo que recoge la historia oficial y que las historias que conocemos de tiempos muy remotos (p.e., hace 2000 años) no son sino reformulaciones deformadas de historias mucho más recientes.

Ayer me puse el sombrero negro

Ayer tuve una visita: un amigo me pidió que le echara una mano a otro que andaba muy perdido con su tesis de máster. No era estadístico pero estaba construyendo regresiones y pruebas de hipótesis y no entendía los resultados. Como a veces pasa, había comenzado por las conclusiones (tal vez razonables) con la esperanza de que los datos acabasen dándole la razón.

Y se la daban… salvo por un pequeño detalle: aunque significativo, el coeficiente de la corrupción tenía el signo contrario.

Voronois con distintas distancias

Especulando sobre la diferencia en la práctica entre distintas métricas ($latex l_1$, $latex l_2$, $latex l_\infty$, etc.), construi una serie de diagramas de Voronoi usado métricas arbitrarias.

En la Wikipedia se comparan gráficamente $latex l_1$, $latex l_2$ (o euclídea y Manhattan). Mi código,

library(data.table)
library(reshape2)
library(grid)

n <- 20
dim.image <- 1000
puntos <- data.frame(id = 1:n,
                      x0 = runif(n) * dim.image,
                      y0 = runif(n) * dim.image)
colores <- rainbow(n)

voronoi <- function(p){
  tmp <- data.table(expand.grid(
      x = 1:dim.image,
      y = 1:dim.image, id = 1:n), key = "id")
  tmp <- merge(tmp, puntos, by = "id")

  distancia <- function(a, b, c, d, p)
    (abs(a-c)^p + abs(b-d)^p)^(1/p)

  tmp$distancia <- distancia(tmp$x,
    tmp$y, tmp$x0, tmp$y0, p)
  tmp[, rank := rank(distancia, ties = "random"),
    by = c("x", "y")]

  rejilla <- tmp[tmp$rank == 1,]
  rejilla$x0 <- rejilla$y0 <-
    rejilla$distancia <- rejilla$rank <- NULL

  rejilla$color <- colores[rejilla$id]

  imagen <- as.matrix(dcast(rejilla, x ~ y, value.var = "color")[,-1])

  grid.raster(imagen)
}

permite usar más en función del parámetro p.

Respuestas distintas, ¿a la misma pregunta?

Hará ya un par de años, un señor muy importante divulgaba en su bitácora los resultados de un estudio relativo a la educación en España que acababa de publicar. Dedicaba una pequeña parte de la entrada a cuestiones metodológicas y el resto a cuestiones normativas: dado que he encontrado esto y aquello con un p-valor de tal, no otro remedio queda que aplicar todas estas medidas que aquí enumero, era el resumen de todo.

Todos los errores son iguales, pero algunos son más iguales que otros

Por eso, en la práctica, el RMSE y similares son irrelevantes. Aunque eso, desgraciadamente, no quiera decir que no sean utilizados.

Pero en muchas ocasiones no es el error medio la medida importante. A menudo uno quiere detectar outliers: una variable de interés tiene un comportamiento normal la mayor parte del tiempo pero en ocasiones, en raras ocasiones, cuando supera un umbral, produce catástrofes. Dejarse guiar por el RMSE (o similares) produciría una peligrosa sensación de seguridad: detectaría la normalidad; la anormalidad, lo interesante, le resultaría inasequible.

Ajuste de probabilidades en regresiones logísticas bajo sobremuestreo ( y otros)

En ocasiones el conjunto de datos sobre el que se ajusta una regresión logística está desequilibrado con respecto a la población subyacente. Por ejemplo, puede suceder que la tasa de casos positivos en los datos sea del 20% mientras que en la población general es del 5%.

Esto puede suceder por varios motivos. El sobremuestreo uno de ellos: se sobremuestrea cuando se toman, por ejemplo, todos los casos positivos y solo un subconjunto de los negativos.

La media, medidas de centralidad y distancias

El problema de hoy viene sugerido por la manera de encontrar un valor central –una medida de centralidad– en una serie de números $latex x_1,\dots, x_n$. A uno se le viene a la mente la media de dichos puntos, por supuesto. Pero la media no es sino el valor $latex \theta$ que minimiza

$$ \sum_i (x_i - \theta)^2.$$

En lugar de minimizar la distancia al cuadrado entre ese punto central y los de la serie, podríamos usar otras funciones. Es sabido que si tratamos de minimizar

La variación y sus negacionistas

Las entradas de esta semana han girado alrededor de un tema: la comparación bajo incertidumbre. La remato recomendando un artículo de Stephen Few, Variation and Its Discontents, que tiene un subtítulo de lo más oportuno: Funnel Plots for Fair Comparisons.

Nota: Los lectores más fieles de estas páginas recordarán entradas viejas, como esta, que también sugerían el uso de gráficos de embudo (o trompeta).