Rarezas: ML algebraico

Alguien (¡gracias!) me pasa Algebraic Machine Learning, que abunda sobre lo que escribí hace varios años. Confieso no haber entendido gran cosa en una primera (y última) lectura diagonal, pero tal vez alguno de mis lectores sí.

24 de julio de 2020 · Carlos J. Gil Bellosta

Por supuesto que tengo más variables que observaciones... ¿y?

He intentado replicar los resultados de la entrada de ayer con GAM (vía mgcv) así (véase el enlace anterior para la definición de los datos): library(mgcv) modelo_gam <- gam( y ~ x + s(id, bs = "re"), data = datos, method = "REML", family = "poisson") Y nada: Error in gam(y ~ x + s(id, bs = "re"), data = datos, method = "REML", : Model has more coefficients than data Sí, ya sé que tengo más variables que observaciones. Pero, ¿no es para eso que estoy usando efectos aleatorios? ...

23 de julio de 2020 · Carlos J. Gil Bellosta

Aún más sobre la presunta sobredispersión en modelos de Poisson

[Esta entrada continúa el ciclo al que he dedicado esta y esta otra entradas durante los últimos días.] Las dos entradas anteriores de la serie se resumen en que: el modelo de Poisson no recoge todas las fuentes de error que pueden existir en los datos y que las soluciones al uso (como, p.e., usar modelos quasi-Poisson) son puros remiendos. Si el error en el modelo de Poisson entra (también) en el término lineal, podemos modelar ese error explícitamente. Podría haber implementado la solución INLA o Stan del problema, pero me conformaré con la lme4. Primero, generaré los datos (igual que en las entradas anteriores) y añadiré una variable categórica que identifique cada registro: ...

22 de julio de 2020 · Carlos J. Gil Bellosta

Análisis de arquetipos

De eso trata un artículo de los noventa de Breiman. Es decir, de encontrar dentro de conjuntos de datos conjuntos finitos de sujetos puros que permiten representar cualquier otro como una mezcla (o combinación convexa) de ellos. Ideas a vuelapluma: Cuando leo sobre el asunto, la palabra que no deja de aparecérseme es outlier. Curiosamente, la busco en el texto y se resiste a aparecer. Pero me aterra la posibilidad de estar caracterizando a los sujetos normales (¿aún se puede usar la expresión?) como combinación convexa de raritos. La técnica podía competir muy favorablemente con el clústering tanto conceptualmente (resuelve el problema de la heterogeneidad de los clústers) como operativamente (se podrían extraer para algún fin los sujetos que participasen en una proporción determinada de un cierto arquetipo). En el fondo, se solapa con otras técnicas bien establecidas y que hacen cosas parecidas como LDA (con D de Dirichlet) o NMF (factorización no negativa de matrices).

21 de julio de 2020 · Carlos J. Gil Bellosta

Mi parrafito favorito de "Number Sense"

Acabo de terminar (la última edición corregida y aumentada de) The Number Sense, un libro que libro explora la ubicación de la aritmética básica dentro del eje naturaleza vs crianza y del que me permito compartir mi parrafito favorito:

20 de julio de 2020 · Carlos J. Gil Bellosta

Más sobre la presunta sobredispersión en el modelo de Poisson

[Esta entrada abunda sobre la de ayer y sin la cual no se entiende.] Generemos unos datos, las x: n <- 1000 sigma <- .5 x <- rep(-2:2, each = n) x_real <- -1 + .5 * x + rnorm(length(x), 0, sigma) En el bloque anterior hemos creado una/la variable observada, x, el término lineal que operará en el modelo de Poisson, -1 + .5 * x, y el real, -1 + .5 * x + rnorm(length(x), 0, sigma), que agrega al anterior el impacto de otras variables no tenidas en cuenta a través de un error normal al uso. ...

17 de julio de 2020 · Carlos J. Gil Bellosta

No, tus datos no "tienen sobredispersión": es que el gato de Nelder se ha merendado la epsilon

El modelo de Poisson viene a decir que si y es una variable con valores 0, 1,… y x1,…, xn son variables explicativas tiene cierto sentido en algunos casos plantear un modelo de la forma $$ y | x_i \sim \text{Pois}(\exp(a_0 + \sum_i a_i x_i) ),$$ Es decir , para cada combinación de las xi, el modelo proporciona el parámetro de una distribución de Poisson de la que y es una realización. Hay una incertidumbre (o un error irreductible) que reside en que de y solo conocemos la distribución. ...

16 de julio de 2020 · Carlos J. Gil Bellosta

Más sobre el artículo raro, raro, raro

No he podido evitar darle vueltas al artículo que comenté el otro día aquí, Bayesian Estimation with Informative Priors is Indistinguishable from Data Falsification, de la manera más caritativa posible. En particular, me he preguntado: ¿Por qué se escribió (en lugar de no haberse escrito)? ¿Por qué se escribió en esos términos (en lugar de en otros)? Obviamente, el artículo no enseña nada desde el punto de vista técnico. Desde el metodológico, tampoco: recuerda más que a otra cosa, a esos físicos que muchos años después aún despotricaban contra la teoría de la relatividad. ...

15 de julio de 2020 · Carlos J. Gil Bellosta

Sobre el efecto medio

Traduzco de aquí: En estadística y econometría se habla a menudo del efecto medio de un tratamiento. A menudo, he sido [Gelman] escéptico con respecto al efecto medio por la sencilla razón de que, si se trata de un efecto medio, se está reconociendo la posibilidad de variación; y si hay una variación importante (tanto como para hablar del efecto medio y no solo del efecto) es que nos preocupa tanto que deberíamos estudiarla directamente en lugar de reducirla a su promedio. ...

14 de julio de 2020 · Carlos J. Gil Bellosta

El incentivo perverso

Viene a cuenta de este tuit, Desde el @CSIC, Diego Ramiro sugiere que la producción de estadísticas de salud recaiga en un organismo especializado similar al INE: “Centrado en la producción y no en la investigación, lo que agilizaría que los datos estén disponibles”. https://t.co/mB0axlvMbz vía @el_pais — Demografía (CSIC) (@Demografia_CSIC) July 11, 2020 que hace referencia a este parrafito en el artículo enlazado: Quizás lo más grave es que el acceso a los datos está siendo restringido incluso entre científicos. “Desde el principio solicitamos información desagregada por municipio y franjas de edad al Instituto Carlos III —explica Manrubia—. Recibimos la respuesta de que se estaban revisando y que pronto se harían públicos. Todavía no lo son. La opacidad en los datos sonaba a ocultismo”. También Diego Ramiro, del Instituto de Economía, Geografía y Demografía del CSIC, describe una experiencia similar después de haber solicitado datos al ISCIII sin éxito: “No podrán dar respuesta por el poco personal que tienen”. ...

13 de julio de 2020 · Carlos J. Gil Bellosta