Notas (2): GAMs, Stan en el navegador y algunas otras cosas más

Isotype: Un método para graficar datos (y no solo datos) relacionados con asuntos sociales, económicos, tecnológicos, etc. que puede considerarse un antecesor de la infografía contemporánea. Fue desarrollado hace 100 años por Otto Neurath, uno de los integrantes del Círculo de Viena. Good if make prior after data instead of before: Dynomight argumentando que no solo es legítimo sino necesario construir las prioris después de ver datos (escribo datos y no los datos a propósito). Bayes vs. the Invaders (Redivivus): La Oxford Internet Institute Halloween Lecture de 2025, que explora mediante un modelo bayesiano simple una base de datos histórica de avistamientos de OVNIs. GAMs for Customer Lifetime Value (CLV) prediction: Prácticamente, un tutorial de uso de los GAMs con R que merece ser tenido a la mano. Simulating from and checking a model in Stan: It’s so easy in Stan Playground–it just runs on your browser!: Eso, que se pueden correr modelos bayesianos con Stan en el navegador. Finalmente, una nota bizarra. Durante un tiempo seguí un blog, GetStats, al que enlacé varias veces en estas páginas hace muchos años. Luego, o desapareció o perdí interés en él. No lo recuerdo, fue hace mucho tiempo. Hace unos días, revisando y tratando de enmendar enlaces rotos de entradas antiguas, volví a dar con él. Pero advertí algo sospechoso: no solo habían desaparecido los contenidos (interesantes) a los que apuntaba sino que el contenido actual parecía plano y romo, como producto de un LLM no muy avispado. En definitiva, una acumulación de indicios me hizo albergar sospechas de que esa no era la página que conocí en tiempos, hasta que un hecho las confirmó indubitablemente: en el pie de todas las páginas figuraba el logo y el enlace a un casino trucho. En definitiva, se trata de un caso de lo que se llama expired domain sniping y que ha afectado a otras páginas similares. Espero que no sea tal el futuro de datanalytics.com.

8 de enero de 2026 · Carlos J. Gil Bellosta

Construcción de intervalos de confianza para gráficos de calibración vía "bootstrap" y algunos asuntos más

Visualizing XGBoost Models with SHAP in Python: Feature Importance, Dependence, and Interaction Plots es otro tutorial sobre todas esas cosas. Pero a los interesados en la materia, les recomiendo la lectura sosegada de Interpretable Machine Learning. Andrew Gelman discute el problema común de que los intervalos subjetivos del 50% suelen ser demasiado estrechos y que, como consecuencia, no capturan realmente el 50% de los resultados. Como solución, propone la siguiente estrategia: construir el intervalo intuitivo y luego ampliarlo por un factor fijo (p. ej., 1.5×) para mejorar la calibración. Aunque no es, obviamente, una solución completa, ofrece un punto de partida práctico para mejorar la calibración subjetiva de la incertidumbre. ...

18 de diciembre de 2025 · Carlos J. Gil Bellosta

Unas cuantas notas sobre estadística

Uno de los metaprincipios de la construcción de modelos estadísticos es que la calidad de los modelos es función de la cantidad de información que hay en los datos de entrenamiento. No existe el bootstrap en el sentido etimológico del término: no puede uno levantarse en el aire tirando hacia arriba de los cordones de los zapatos. Pero al hilo de una noticia reciente, Gelman discute si añadir ruido a los datos permite reducir el sobreajuste. Además, en la discusión al respecto, alguien cita el artículo de 1995 Training with Noise is Equivalent to Tikhonov Regularization, una especie de penalización en el tamaño de los coeficientes al modo de la regresión ridge. ...

16 de octubre de 2025 · Carlos J. Gil Bellosta

Sobre los efectos heterogéneos, la menguante calidad de las estadísticas públicas y algunos asuntos estadísticos más

El término y concepto de varianza se acuñaron para, al parecer, poder definir el de heredabilidad en la protogenética decimonónica. Dos artículos muy interesantes y accesibles sobre el tema (sobre todo el segundo), son Missing Heritability: Much More Than You Wanted To Know de Scott Alexander y Heritability puzzlers de Dynomight. (Si crees, como yo, que el segundo tiene un gazapo o inconsistencia, deja una nota en los comentarios). Solomon Kurz ha publicado material para aprender Stan con brms (partes I, II y III). Tengo dos objeciones al uso de brms: primero, que al usarlo no se aprende Stan sino otra cosa; y, segundo, que la interfaz de fórmula para la especificación de modelos, que es lo que permite brms, da de sí lo que da de sí y no más. Es cierto que casi siempre buscamos implementar modelos que admiten una interfaz de fórmula, pero esos son, precisamente, los más sencillos y para los que los LLMs tendrían menos problemas para generar el correspondiente código de Stan. ...

1 de julio de 2025 · Carlos J. Gil Bellosta

Un argumento en contra del redondeo y cuatro breves asuntos más

Ahora se pueden correr Stan en el navegador (vía WebAssembly) aquí. En este artículo relacionado se preguntan sobre la problemática relación entre MCMC y las GPUs. La respuesta es, esencialmente, que no: el MCMC es iterativo y no se presta al paradigma SIMD (single instruction, multiple data). Los únicos casos en los que he visto alguna ganancia son esos —rarísimos— en los que el modelo involucra algún tipo de red neuronal que sí que puede aprovechar el paralelismo. En este artículo, John D. Cook se suma a los críticos del BMI —que no es novedad— y sugiere reemplazarlo —esto sí— por algún tipo de índice de redondez (del cuerpo del sujeto). Un problema de los LEFTs es que la volatilidad diaria socava gravemente su rentabilidad. Para evitar ese problema, se han lanzado LEFTs que cierran semanal o mensualmente. Una recomendación habitual es evitar la sobreprecisión en los números publicados (p.e., $p = 0.0421942). Sin embargo, Please, show lots of digits argumenta en contra: esos números no redondeados aportan información adicional que puede permitir realizar ingeniería inversa y revelar cifras y procedimientos no explícitamente mostrados en los artículos.

5 de noviembre de 2024 · Carlos J. Gil Bellosta

Más allá del "software" libre y algunos asuntos más

Últimamente, casi siempre que se usan las palabras tecnología y enseñanza en una misma frase es para denunciar los perniciosos efectos de la primera en la segunda. No obstante, aquí se señala uno de sus potenciales atractivos: adecuadamente usada, podría permitir gestionar la varianza (por no usar el término tabú, desigualdad), en el desempeño escolar. En Stan’s autodiff is 4x faster than JAX on CPU but 5x slower on GPU (in one eval) se ponen en cuestión “leyes de la naturaleza/informática” que no son otra cosa que generalizaciones. Va por casos. Doy fe. Uno de los problemas de las licencias abiertas es que, por diseño, olvidan una dimensión muy importante del desarrollo de código: hay gente que vive de eso (véase, por ejemplo, Free as in Do as Your Told). Un nuevo tipo de licencia, la fair source, quiere remediar el problema. En resumen, es un tipo de licencia privativa que deviene automáticamente abierta al cabo de un tiempo razonable. Otro de los problemas que ocurren (a veces) al desarrollar software libre: que tus dependencias pueden quedar huérfanas, como aquí. Xata ofrece alojamiento para instancias de Postgres que cuenta con un segmento gratuito (free tier). Aquí describen la solución tecnológica y el impacto económico de ese servicio (en concreto, de cómo usan lo uno para minimizar lo otro).

29 de octubre de 2024 · Carlos J. Gil Bellosta

"Proxys": error y sesgo en modelos lineales

El otro día publiqué un minihilo en Twitter que terminaba con una encuesta. Proponía el siguiente problema: Quiero, abusando del lenguaje, estimar el efecto de $x$ sobre $y$ usando el modelo lineal clásico $y = a_0 + a_1 x + \epsilon_1$. Pero no puedo medir $x$ con precisión. Solo tengo una medida ruidosa/aproximada de $x$, $z = x + \eta$, donde $\eta$ es normal, independiente de $\epsilon_1$, etc. Uso el modelo $y = b_0 + b_1 z + \epsilon_2$. La pregunta que planteé consistía en elegir entre las siguientes tres opciones: ...

2 de marzo de 2022 · Carlos J. Gil Bellosta

Nuevo vídeo en YouTube: charla con J.L. Cañadas

He subido un nuevo vídeo a mi canal, Es una charla de casi una hora con José Luis Cañadas. Comienza con Stan y luego deriva hacia otros temas de interés estadístico. Como digo en el resumen del vídeo, solo los últimos 3-4 minutos son prescindibles.

5 de mayo de 2021 · Carlos J. Gil Bellosta

Encuestas (electorales), medios y sesgos

Me he entretenido estos días en crear un modelo que represente la siguiente hipótesis de trabajo: Los encuestadores electorales combinan tres fuentes de información: sus propios datos, el consenso de los restantes encuestadores y la voz de su amo, es decir, el interés de quien paga la encuesta. Es un modelo en el que se introduce (y se mide) el sesgo que introduce cada casa en los resultados. De momento (¡no fiarse!, léase lo que viene después) he obtenido cosas como estas (para el PP): ...

14 de diciembre de 2020 · Carlos J. Gil Bellosta

Más sobre variables instrumentales con R

[El título de esta entrada tiene un + delante porque ya escribí sobre el asunto tiempo atrás.] Con la excusa de la reciente publicación del paquete ivreg (para el ajuste de modelos con variables instrumentales, por si el contexto no lo hace evidente), he mirado a ver quién estaba construyendo y ajustando modelos generativos menos triviales que los míos (véase el enlace anterior) para que quede más claro de qué va la cosa. Porque la explicación típica, que adopta formas no muy distintas de ...

8 de septiembre de 2020 · Carlos J. Gil Bellosta