Kepler ∩ Bayes

En los relatos acerca de las tribulaciones de los científicos se suele hacer referencia a estimaciones puntuales: X determinó que el Y era Z. Luego, además, se suele aclarar que ahora se sabe que el valor de Y no es Z sino tal vez el doble o un 10% menos. Pero ahí queda la cosa. Es extraño porque hoy en día, si todo el mundo piensa que Y es 0 y alguien propone un valor Z, no se le hace el menor caso si no proporciona un intervalo de confianza alrededor de Z que, entre otras cosas, excluya el 0. No está para nada claro que los astrónomos de la época tuviesen que hacer caso a pie juntillas a los Galileos, Keplers, etc. de la época. Con los estándares de hoy, no habrían podido publicar ninguno de sus resultados. ...

9 de abril de 2026 · Carlos J. Gil Bellosta

Teoría de la decisión bayesiana con NumPyro

Daniel Saunders tiene una entrada en su blog, A Bayesian decision theory workflow en el que utiliza PyTensor para resolver un problema de teoría de la decisión bayesiana (¿es realmente necesario el apellido?) y cuya solución es $3.291507977689139$. El maestro Juan Camilo Orduz —de quien no se puede dejar nunca de aprender— lo replicó en A Bayesian Decision Theory Workflow: Port to NumPyro para obtener $3.27928950$ como solución. Yo ahora recojo el guante y, por lo de bayesiano, llego a ...

25 de febrero de 2026 · Carlos J. Gil Bellosta

Notas (9): Algunos enlaces y comentarios sobre temas estadísticos

Mills ratio and tail thickness — John D. Cook nos habla de la razón de Mills ($\int_x^\infty f(t) dt / f(x)$) para estudiar el grosor de las colas de las distribuciones de probabilidad. Por ejemplo, aunque una distribución t con muchos grados de libertad es muy similar a una normal en la parte central, la razón de Mills las distingue claramente por su distinto comportamiento en las colas. What is “workflow” and why is it important? — Sobre el flujo de trabajo del análisis de datos (con inspiración bayesiana), según Andrew Gelman (y sus coautores). R Workflow es la reinterpretación de Frank Harrell del mismo asunto. ...

23 de febrero de 2026 · Carlos J. Gil Bellosta

Sobre un inesperado factor que convierte subrepticialmente una distribución a priori en informativa

La distribución predictiva a priori es la que se obtiene de un modelo a partir de las prioris, antes de ver datos o realizar ajustes. Se utiliza para evaluar el grado en que las prioris elegidas están dentro de rango y no generan datos que no se parecen en nada a los que se espera por conocimiento previo. El libro Bayesian Modeling and Computation in Python discute las distribuciones predictivas a priori en su segundo capítulo. Allí argumenta alrededor de dos ejemplos. El primero está elegido a propósito para defender el caso de las prioris informativas frente a las objeciones de sus innumerables escépticos. El segundo es más intrigante. Muestra el gráfico ...

18 de febrero de 2026 · Carlos J. Gil Bellosta

Construcción de intervalos de confianza para gráficos de calibración vía "bootstrap" y algunos asuntos más

Visualizing XGBoost Models with SHAP in Python: Feature Importance, Dependence, and Interaction Plots es otro tutorial sobre todas esas cosas. Pero a los interesados en la materia, les recomiendo la lectura sosegada de Interpretable Machine Learning. Andrew Gelman discute el problema común de que los intervalos subjetivos del 50% suelen ser demasiado estrechos y que, como consecuencia, no capturan realmente el 50% de los resultados. Como solución, propone la siguiente estrategia: construir el intervalo intuitivo y luego ampliarlo por un factor fijo (p. ej., 1.5×) para mejorar la calibración. Aunque no es, obviamente, una solución completa, ofrece un punto de partida práctico para mejorar la calibración subjetiva de la incertidumbre. ...

18 de diciembre de 2025 · Carlos J. Gil Bellosta

Reconstrucción de una distribución a partir de un histograma

Un viejo amigo me escribe y me propone (simplificándolo) el siguiente problema: Tengo una normal de parámetros desconocidos. De ella solo dispongo de un histograma. ¿Cómo puedo reconstruir la normal original? Es decir, ¿cómo puedo estimar los $\mu$ y $\sigma$ originales? En el caso concreto, la normal tiene una media próxima a 255 y los valores del histograma proceden de una muestra suya redondeada al entero más próximo. Aquí va mi solución. ...

2 de diciembre de 2025 · Carlos J. Gil Bellosta

Unas cuantas notas sobre estadística

Uno de los metaprincipios de la construcción de modelos estadísticos es que la calidad de los modelos es función de la cantidad de información que hay en los datos de entrenamiento. No existe el bootstrap en el sentido etimológico del término: no puede uno levantarse en el aire tirando hacia arriba de los cordones de los zapatos. Pero al hilo de una noticia reciente, Gelman discute si añadir ruido a los datos permite reducir el sobreajuste. Además, en la discusión al respecto, alguien cita el artículo de 1995 Training with Noise is Equivalent to Tikhonov Regularization, una especie de penalización en el tamaño de los coeficientes al modo de la regresión ridge. ...

16 de octubre de 2025 · Carlos J. Gil Bellosta

Post-bayesianismo, una microintroducción

Hace muchos años leí Tackling the Poor Assumptions of Naive Bayes Text Classifiers. Es un artículo que viene a decir que, efectivamente, el método del naive Bayes es muy útil en NLP, un clasificador que se construye a partir de primeros principios y se puede usar directamente, tal cual viene en la caja, para obtener resultados decentes. Sin embargo, la experiencia indica que el método, en la práctica, funciona mejor si se lo somete a una serie de cambios ad hoc. Con estas modificaciones, el clasificador resultante guarda cierta similitud con respecto al original: cambia la priori por otra cosa que se le parece pero que no es igual; cambia la verosimilitud por otra cosa que es, de nuevo, parecida pero no exactamente la misma, etc. Pero funciona algo mejor en la práctica. Es decir, que aquello que se construye desde primeros principios puede verse superado por una versión tuneada. ...

16 de julio de 2025 · Carlos J. Gil Bellosta

La probabilidad de que 2+2 siga siendo 4 dentro de 12 meses es algo menor del 100%

Escribí hace un tiempo sobre las probabilidades subjetivas y cómo Leonard Savage sugería pensar en la probabilidad de un evento como la [máxima] cantidad que uno debería estar dispuesto a pagar por el derecho a recibir 100 € si el evento finalmente ocurre. De acuerdo con esa definición, ¿cuál sería la probabilidad de que 2+2 siga siendo 4 dentro de doce meses? Uno estaría tentado a decir que es del 100%, es decir, que pagaría hasta 100 € por el derecho a recibir 100 € en un año si 2+2 es todavía 4 para entonces. ...

12 de junio de 2025 · Carlos J. Gil Bellosta

La gestión de la deriva como problema fundamental del bayesianismo

Esta entrada no versa propiamente sobre estadística bayesiana (aunque también) sino sobre el bayesianismo entendido —exageradamente, a veces— como la columna vertebral de la epistemología. De acuerdo con tal visión, solo podemos conocer las cosas —concedido: no todas— con cierto grado de certeza y tanto este conocimiento como la incertidumbre van adaptándose a la información adicional que llega de acuerdo con un criterio: la regla de Bayes. Pensemos en el ejemplo clásico del lanzamiento de monedas. No sabemos nada a priori sobre la probabilidad $p$ de cara, por lo que nuestro conocimiento sobre el asunto puede modelarse con una beta $B(1,1)$, una distribución uniforme sobre el intervalo $[0,1]$. Conforme observamos lanzamientos, de ser racionales, iremos modificando esa distribución. Si al cabo de $n$ lanzamientos observamos $c$ caras y $n-c$ cruces, nuestro conocimiento sobre $p$ estará recogido en una $B(c+1, n-c+1)$. Esa distribución estará típicamente centrada alrededor del valor real de $p$ y tendrá una dispersión que decrecerá con $n$. (En otra versión, hay un primer conjunto de datos, se obtiene una posteriori y dicha posteriori se convierte en la priori de un análisis ulterior cuando se observa un conjunto de datos adicional). ...

5 de junio de 2025 · Carlos J. Gil Bellosta