Estadística

¡Eh! ¡Atención a la media geométrica!

El insomnio y la serendipia me han hecho transitar por unas líneas en las que se lee (con mi traducción): Es razonable usar la media aritmética, que es de unas 150 personas por milla cuadrada. Sin embargo, el método adecuado es el de la media geométrica: $$ \text{best guess} = \sqrt{\text{lower endpoint} \times \text{upper endpoint}}.$$ La media geométrica da el punto medio de los extremos inferior y superior en la escala logarítmica, que es la que opera en nuestro hardware mental. La geométrica es la media correcta para combinar cantidades producidas por nuestro hardware mental. ...

A falta de escenarios, tenemos instituciones con atribuciones solapadas

Si yo fuera rey, expropiaría el edificio sito en el número 212 de la Castellana de Madrid, derruiría lo existente y construiría uno imagen especular de que es el que queda justo enfrente y que contiene eso que conocemos como Instituto Nacional de Estadística. Lo llamaría, por mantener la especularidad, ENI y lo poblaría de estadísticos con una misión: No hablar ni relacionarse bajo ningún concepto con los de enfrente. Replicar sus estadísticas, proyecciones, encuestas y censos en el mismo plazo y forma pero independientemente de ellos. Así tendríamos dos censos, dos EPAs, dos brechas salariales, dos de cada cosa. Y una mínima estimación de la varianza de las cosas y de su error (muestral y demás). ...

Elecciones e índice (supernaíf) de Shapley

Aprovechando que el paquete GameTheoryAllocation ha emergido de mi FIFO de pendientes a los pocos días de conocerse los resultados de las [adjetivo superlativizado omitidísimo] elecciones generales, voy a calcular de la manera más naíf que se me ocurre el índice de Shapley de los distintos partidos. Que es: Al menos, de acuerdo con el siguiente código: library(GameTheoryAllocation) partidos <- c(123, 66, 57, 35, 24, 15, 7, 7, 6, 4, 2, 2, 1, 1) names(partidos) <- c("psoe", "pp", "cs", "iu", "vox", "erc", "epc", "ciu", "pnv", "hb", "cc", "na", "compr", "prc") coaliciones <- coalitions(length(partidos)) tmp <- coaliciones$Binary profit <- tmp %*% partidos profit <- 1 * (profit > 175) res <- Shapley_value(profit, game = "profit") res <- as.vector(res) names(res) <- names(partidos) res <- rev(res) dotchart(res, labels = names(res), main = "naive shapley index \n elecciones 2019") Lo del índice de Shapley, de ignorarlo, lo tendréis que consultar por vuestra cuenta. Al menos, para saber por qué no debería usarse tan frecuentemente (en problemas de atribución, entre otros). ...

ML y estadística, ¿cosas distintas?

Recomiendo, sin comentarlo, un artículo muy desasosegador en el que se leen cosas como: At this point, I had taken only an introductory statistics class that was a required general elective, and then promptly forgotten most of it. Needless to say, my statistical skills were not very strong. Yet, I was able to read and understand a paper on a state-of-the-art generative machine learning model, implement it from scratch, and generate quite convincing fake images of non-existent individuals by training it on the MS Celebs dataset. ...

Sobre el error de generalización (porque a veces se nos olvida)

Al construir modelos, queremos minimizar $$ l(\theta) = \int L(y, f_\theta(x)) dP(x,y),$$ donde $L$ es una determinada función de pérdida (y no, no me refiero exclusivamente a la que tiene un numerillo 2). Pero como de $P(x,y)$ solo conocemos una muestra $(x_i, y_i)$ (dejadme aprovechar la ocasión para utilizar una de mis palabras favoritas: $P(x,y)$ es incognoscible), hacemos uso de la aproximación $$ \int f(x) dP(x) \approx \frac{1}{N} \sum f(x_i)$$ ...

Las altas dimensiones son campo minado para la intuición

Las dimensiones altas son un campo minado para la intuición. Hace poco (y he perdido la referencia) leí a un matemático que trabajaba en problemas en dimensiones altas decir que le gustaba representar y pensar en las bolas (regiones del espacio a distancia <1 de 0) en esos espacios usando figuras cóncavas, como las que aparecen a la izquierda de precisamente porque una de las propiedades más fructíferas de las bolas en altas dimensiones es que apenas tienen interior. De hecho, es trivial probar que la proporción del volumen de una bola a distancia mayor que $\epsilon$ de su borde tiende a cero con la dimensión. ...

Un resultado contraintuitivo

[Esta entrada recoge la pregunta y la duda que motivó una conversación con Javier Nogales en Twitter hace unos días.] Citaba (él) un resultado de Theobald de 1974 (¿tanto lleva ridge entre nosotros? ¡habría jurado que menos!) que viene a decir que siempre existe un peso $\lambda$ para el que ridge es mejor que OLS. Ves el álgebra y piensas: verdad será. Pero te fías de tu propia intuición y piensas: ¡vaya un resultado contraintuitivo si no contradictorio! Porque: ...

Gestión del riesgo: una perífrasis con hitos aprovechables

Traigo a la consideración de mis lectores Sobre la Sostenibilidad Fiscal de España (II), un artículo de hace un tiempo que es una larga perífrasis alrededor de principios cualitativos muy contrastados sobre la gestión de riesgo (bajo incertidumbre, si se me tolera el pleonasmo). La conclusión es bien sabida pero el camino recorre una serie de hitos que mucho tienen que ver con lo que suelo escribir por aquí. Arranca con una afirmación desconcertante: ...

Simulación de procesos de Poisson no homogéneos y autoexcitados

Fueron mis modelos favoritos un tiempo, cuando modelaba visitas y revisitas de usuarios a cierto malhadado portal. Si las visitas fuesen aleatorias (en cierto sentido), tendrían un aspecto no muy distinto del que se obtiene haciendo library(IHSEP) suppressWarnings(set.seed(exp(pi * complex(imaginary = 1)))) tms <- simPois(int = function(x) .1, cens = 1000) hist(tms, breaks = 100, main = "Proceso homogéneo de Poisson", xlab = "", ylab = "frecuencia") Es decir, o bien una distribución uniforme en el tiempo. Pero bien puede ocurrir que una visita incremente la probabilidad de otra inmediatamente después, por lo que las visitas tenderían a arracimarse en determinados momentos. Con el paquete [IHSEP](https://cran.r-project.org/package=IHSEP) de R pueden simularse (y ajustarse) este tipo de modelos. Por ejemplo, ...

Incertidumbre en ránkings (o cómo la varianza es la mayor enemiga de la meritocracia)

Tengo por ahí leído y encolado el artículo League Tables and Their Limitations: Statistical Issues in Comparisons of Institutional Performance del perínclito Spiegelhalter que toma una serie de ránkings (de colegios, de hospitales) y trata de medir cuánto tienen de sustancia y cuánto de ruido. Hace cosas muy similares a las que escribí aquí. Mi entrada, además, cuenta con la ventaja (que lo será solo para algunos) de usar la sintaxis y código de lme4 en lugar de la nomenclatura que más odio para describir los modelos mixtos utilizados. ...