Notas (2): GAMs, Stan en el navegador y algunas otras cosas más

Isotype: Un método para graficar datos (y no solo datos) relacionados con asuntos sociales, económicos, tecnológicos, etc. que puede considerarse un antecesor de la infografía contemporánea. Fue desarrollado hace 100 años por Otto Neurath, uno de los integrantes del Círculo de Viena. Good if make prior after data instead of before: Dynomight argumentando que no solo es legítimo sino necesario construir las prioris después de ver datos (escribo datos y no los datos a propósito). Bayes vs. the Invaders (Redivivus): La Oxford Internet Institute Halloween Lecture de 2025, que explora mediante un modelo bayesiano simple una base de datos histórica de avistamientos de OVNIs. GAMs for Customer Lifetime Value (CLV) prediction: Prácticamente, un tutorial de uso de los GAMs con R que merece ser tenido a la mano. Simulating from and checking a model in Stan: It’s so easy in Stan Playground–it just runs on your browser!: Eso, que se pueden correr modelos bayesianos con Stan en el navegador. Finalmente, una nota bizarra. Durante un tiempo seguí un blog, GetStats, al que enlacé varias veces en estas páginas hace muchos años. Luego, o desapareció o perdí interés en él. No lo recuerdo, fue hace mucho tiempo. Hace unos días, revisando y tratando de enmendar enlaces rotos de entradas antiguas, volví a dar con él. Pero advertí algo sospechoso: no solo habían desaparecido los contenidos (interesantes) a los que apuntaba sino que el contenido actual parecía plano y romo, como producto de un LLM no muy avispado. En definitiva, una acumulación de indicios me hizo albergar sospechas de que esa no era la página que conocí en tiempos, hasta que un hecho las confirmó indubitablemente: en el pie de todas las páginas figuraba el logo y el enlace a un casino trucho. En definitiva, se trata de un caso de lo que se llama expired domain sniping y que ha afectado a otras páginas similares. Espero que no sea tal el futuro de datanalytics.com.

8 de enero de 2026 · Carlos J. Gil Bellosta

Sobre los nombres de persona asociados a coeficientes intelectuales bajos y algunos otros asuntos más

En Dear Political Scientists: Don’t Bin, GAM Instead se discute una ocurrencia concreta de una disyuntiva más general que aparece frecuentemente en la práctica: crear varios modelos simples con bloques diferentes de datos contra utilizar un modelo global flexible que englobe todos los datos. Tengo la sospecha de que se ha optado históricamente por la primera aproximación por motivos —entre otros— computacionales que ya no operan. La única manera de plantearse en serio la pregunta Will Transformers Revolutionize Time-Series Forecasting? es no saber de predicción de series temporales y no saber de transformers. No está nada claro, por ejemplo, cómo usar transformers para modelar series como $y_t = \alpha t + \epsilon_t$. Pudiera ser que LSTM funcionase mejor (véase esto o esto) pero sigo apostando por Forecasting: Principles and Practice. ...

14 de enero de 2025 · Carlos J. Gil Bellosta

Por supuesto que tengo más variables que observaciones... ¿y?

He intentado replicar los resultados de la entrada de ayer con GAM (vía mgcv) así (véase el enlace anterior para la definición de los datos): library(mgcv) modelo_gam <- gam( y ~ x + s(id, bs = "re"), data = datos, method = "REML", family = "poisson") Y nada: Error in gam(y ~ x + s(id, bs = "re"), data = datos, method = "REML", : Model has more coefficients than data Sí, ya sé que tengo más variables que observaciones. Pero, ¿no es para eso que estoy usando efectos aleatorios? ...

23 de julio de 2020 · Carlos J. Gil Bellosta

gam vs rrff (y, en general, modelos generativos vs cajas negras)

Para modelizar una serie temporal, y simplificándolo mucho, ¿gam o rrff? Como todo, depende. El otro día oí de un caso en el que los segundos vencían a los primeros claramente. Natural. Hay contextos con una estructura matemática clara y potente. En particular, muchos en los que trabajo actualmente. ¿Para qué usar una herramienta genérica cuando cuento con una específica? Esos datos, mis datos, exigen estructura matemática. Luego hay otros casos en los que uno se lanza al río. Luego uno siempre quiere invertir el proceso y ver qué carajos está ocurriendo con los datos (véase esto). ...

15 de mayo de 2018 · Carlos J. Gil Bellosta

gam/bam admiten efectos aleatorios

gam/bam admiten efectos aleatorios gam/bam admiten efectos aleatorios gam/bam admiten efectos aleatorios gam/bam admiten efectos aleatorios gam/bam admiten efectos aleatorios gam/bam admiten efectos aleatorios gam/bam admiten efectos aleatorios Y solo me enteré anoche (gracias a José Luis Cañadas). (Para más detalles, esto o esto).

10 de mayo de 2018 · Carlos J. Gil Bellosta

Mezcolanza: de INLA a GAM pasando por la frenología

Combino en uno cuatro asuntos demasiado prolijos para Twitter pero sobre los que no sé lo suficiente como para desarrollarlos en una entrada entera. El paquete stpp de R tiene muy buena pinta para el análisis de conteos espacio-temporales. Se recomienda leer el artículo que lo describe. Para el tipo de problemas que plantea, se me habría ocurrido tirar de INLA. Desafortunadamente, a los autores del artículo no se les ocurrió compararlos. Cosas de la academia. ...

19 de diciembre de 2017 · Carlos J. Gil Bellosta

GAM

Hoy he dado una charla en la Carlos III. En la comida me han preguntado, algo extrañados, por un ejemplo que había enseñado en el que ajustaba un modelo usando GAMs. El motivo era que quienes preguntaban —que trabajan con ese tipo de modelos— encuentran muy difícil, se ve, convencer a otros usuarios de los métodos estadísticos (economistas, etc.) de adoptarlos. Yo he contestado que hace unos pocos días a unos primíparos que acababan de ajustar sus tres primeros lms con R les invité a probar GAMs con sus datos. ¿Por qué no? ...

13 de noviembre de 2015 · Carlos J. Gil Bellosta