Estadística Bayesiana

Unas cuantas notas sobre estadística

Uno de los metaprincipios de la construcción de modelos estadísticos es que la calidad de los modelos es función de la cantidad de información que hay en los datos de entrenamiento. No existe el bootstrap en el sentido etimológico del término: no puede uno levantarse en el aire tirando hacia arriba de los cordones de los zapatos. Pero al hilo de una noticia reciente, Gelman discute si añadir ruido a los datos permite reducir el sobreajuste. Además, en la discusión al respecto, alguien cita el artículo de 1995 Training with Noise is Equivalent to Tikhonov Regularization, una especie de penalización en el tamaño de los coeficientes al modo de la regresión ridge.

Post-bayesianismo, una microintroducción

Hace muchos años leí Tackling the Poor Assumptions of Naive Bayes Text Classifiers. Es un artículo que viene a decir que, efectivamente, el método del naive Bayes es muy útil en NLP, un clasificador que se construye a partir de primeros principios y se puede usar directamente, tal cual viene en la caja, para obtener resultados decentes. Sin embargo, la experiencia indica que el método, en la práctica, funciona mejor si se lo somete a una serie de cambios ad hoc. Con estas modificaciones, el clasificador resultante guarda cierta similitud con respecto al original: cambia la priori por otra cosa que se le parece pero que no es igual; cambia la verosimilitud por otra cosa que es, de nuevo, parecida pero no exactamente la misma, etc. Pero funciona algo mejor en la práctica. Es decir, que aquello que se construye desde primeros principios puede verse superado por una versión tuneada.

La probabilidad de que 2+2 siga siendo 4 dentro de 12 meses es algo menor del 100%

Escribí hace un tiempo sobre las probabilidades subjetivas y cómo Leonard Savage sugería pensar en la probabilidad de un evento como

la [máxima] cantidad que uno debería estar dispuesto a pagar por el derecho a recibir 100 € si el evento finalmente ocurre.

De acuerdo con esa definición, ¿cuál sería la probabilidad de que 2+2 siga siendo 4 dentro de doce meses? Uno estaría tentado a decir que es del 100%, es decir, que pagaría hasta 100 € por el derecho a recibir 100 € en un año si 2+2 es todavía 4 para entonces.

La gestión de la deriva como problema fundamental del bayesianismo

Esta entrada no versa propiamente sobre estadística bayesiana (aunque también) sino sobre el bayesianismo entendido —exageradamente, a veces— como la columna vertebral de la epistemología. De acuerdo con tal visión, solo podemos conocer las cosas —concedido: no todas— con cierto grado de certeza y tanto este conocimiento como la incertidumbre van adaptándose a la información adicional que llega de acuerdo con un criterio: la regla de Bayes.

Pensemos en el ejemplo clásico del lanzamiento de monedas. No sabemos nada a priori sobre la probabilidad $p$ de cara, por lo que nuestro conocimiento sobre el asunto puede modelarse con una beta $B(1,1)$, una distribución uniforme sobre el intervalo $[0,1]$. Conforme observamos lanzamientos, de ser racionales, iremos modificando esa distribución. Si al cabo de $n$ lanzamientos observamos $c$ caras y $n-c$ cruces, nuestro conocimiento sobre $p$ estará recogido en una $B(c+1, n-c+1)$. Esa distribución estará típicamente centrada alrededor del valor real de $p$ y tendrá una dispersión que decrecerá con $n$. (En otra versión, hay un primer conjunto de datos, se obtiene una posteriori y dicha posteriori se convierte en la priori de un análisis ulterior cuando se observa un conjunto de datos adicional).

Estadística vs aprendizaje automático y algunos asuntos más

Cuando comparo valores reales contra estimados/predichos, tengo la costumbre de colocar los valores observados en el eje horizontal y las predicciones en el vertical. Así puedo ver si yerro por exceso o por defecto (con respecto a la línea, típicamente roja, $y = x$). Sin embargo, tanto en este artículo como en esta entrada de blog, se argumenta en favor de lo contrario.

Hay una diferencia sustancial entre el bayesianismo abstracto y el aplicado (o computacional): el primero siempre habla de aprendizaje secuencial y de encadenamiento de posterioris: la posteriori de un primer estudio con unos datos parciales se convierte automáticamente en la priori de uno posterior con un conjunto de datos adicional. En la versión práctica, solo es posible en ciertos casos concretos (p.e., cuando hay distribuciones conjugadas) pero no en general. En general uno obtiene una descripción de la posteriori en términos de una serie de muestras que no hay forma de utilizar después como priori. Sin embargo, pasan cosas como esta o esta

Sobre el modelo beta-binomial con "deriva"

Planteamiento del problema

El modelo beta-binomial es precisamente el que estudió el reverendo Bayes. Es tan viejo como la estadística bayesiana: tienes una moneda, la tiras repetidamente y vas afinando progresivamente la estimación de la probabilidad de cara asociada a tal moneda.

Una variante habitual del problema anterior ocurre cuando hay una deriva (uso deriva como traducción de shift) en la probabilidad de la cara de la moneda: puedes estar tratando de vender productos en Amazon y estimar el número de ventas por impresión; es tentador usar el modelo beta-binomial, pero hay un problema: los datos de hace tres años, ¿siguen siendo relevantes?; ¿habrán cambiado en tanto las probabilidades?; en tal caso, ¿qué se puede hacer?

Comparaciones vs efectos y cuatro asuntos más

Aquí se lee:

Preferimos el término “comparaciones” al de “efectos” en tanto que el primero es más general que el segundo. Una comparación es un efecto solo en aquellos casos en los que el modelo tiene una interpretación causal válida.

En Instrumental variable regression and machine learning se discute cómo aplicar la técnica de las variables instrumentales no con regresiones lineales sino con otro tipo de modelos más generales (y se ilustra con random forests).

El "perspectivismo" en el debate sobre la naturaleza, objetiva o subjetiva, de la probabilidad

How probabilities came to be objective and subjective es un artículo que se resume así:

Entre 1837 y 1842, al menos seis matemáticos y filósofos, escribiendo en francés, inglés y alemán, y trabajando independientemente unos de otros, introdujeron distinciones entre dos tipos de probabilidad. Aunque los fundamentos, contenidos e implicaciones de estas distinciones diferían significativamente de autor a autor, todos giraban en torno a una distinción filosófica entre “probabilidades objetivas” y “subjetivas” que había surgido alrededor de 1840. Fue esta nueva distinción filosófica la que permitió a los probabilistas revisionistas concebir la posibilidad de “probabilidades objetivas”, lo cual habría sido un oxímoron para los probabilistas clásicos como Jakob Bernoulli y Pierre Simon Laplace.

Los modelos bayesianos, ¿condenados a sobreajustar?

Por ese micromundo en el que me muevo, circuló recientemente una polémica sobre si los métodos bayesianos sobreajustan necesaria e irremisiblemente. El desencadenante fue la publicación Bayes is guaranteed to overfit, for any model, any prior, and every data point en la que el autor sostiene que, efectivamente:

  • Tiene sentido hablar de sobreajuste en modelos bayesianos (a diferencia de lo que sostienen otros argumentando que, como los modelos bayesianos no maximizan ninguna función objetivo, no ha lugar siquiera hablar de sobreajuste).
  • Y que, efectivamente, sobreajustan.

También reconoce, y eso hay que abonárselo, que otros métodos (MLE en particular) sobreajustan aún más.

Ajuste de modelos: Optimización vs generalización

He escrito esta entrada como una introducción a lo que se cuenta aquí, aquí y aquí sobre el asunto de la relación entre la optimización (como parte del proceso de ajuste de modelos) y la generalización (o su capacidad para aprender sobre el mundo y no solo sobre los datos de entrenamiento). En los enlaces, el lector encontrará planteadas una serie de cuestiones sobre cómo y por qué generalizan los (o cierto tipo de) modelos en lugar de, simplemente, no hacerlo.