Estadística Bayesiana

De cómo la estadística bayesiana ha descompuesto la solución a un problema que la estadística clásica tenía plusquamsolucionado

I.

Voy a plantear el problema del día en el contexto más simple y familiar para la mayoría que se me ocurre: una ANOVA para comparar dos tratamientos. Se puede representar de la forma

$$y_i \sim \alpha + \beta_{T(i)} + \epsilon$$

donde $T(i)$ es el tratamiento, $A$ o $B$, que recibe el sujeto $i$. Parecería que el modelo estuviese sugiriendo determinar tres parámetros, $\alpha$, $\beta_A$ y $\beta_B$, correspondientes al efecto sin tratamiento y los efectos adicionales de los tratamientos $A$ y $B$. Sin embargo, si $\hat{\alpha}$, $\hat{\beta}_A$ y $\hat{\beta}_B$ es una solución, también lo es $\hat{\alpha} + \lambda$, $\hat{\beta}_A - \lambda$ y $\hat{\beta}_B - \lambda$ para cualquier $\lambda$. ¡No hay solución única (sino, más bien, una recta entera de soluciones)!

Coeficientes "no identificables": un ejemplo y sus consecuencias

Hoy voy a abundar sobre el modelo 3PL que ya traté el otro día. En particular voy a contrastar críticamente varios modelos alternativos sobre los mismos datos.

I.

El modelo que implementé (aquí) puede describirse así:

$$r_{ij} \sim \text{Bernoulli}(p_{ij})$$ $$p_{ij} = p(a_i, d_j, …)$$ $$a_i \sim N(0, 1)$$ $$d_j \sim N(0, 1)$$ $$\dots$$

donde

$$p = p(a, d, \delta, g) = g + \frac{1 - g}{1 + \exp(-\delta(a- d))}$$

y $a_i$ y $d_j$ son la habilidad del alumno $i$ y la dificultad de la pregunta $j$ respectivamente. Nótese además cómo en $f$ estas dos variables intervienen solo a través de su diferencia, $a - d$.

Una "app" para la selección de parámetros de prioris informativas

Un ejemplo de caso de uso: uno de los parámetros de tu modelo está relacionado con la duración de algo. El cliente, que tiene 20 años de experiencia en la cosa te dice: el tiempo está típicamente comprendido entre uno y siete días. Por lo tanto, decides introducir en tu modelo una priori informativa gamma que con una alta probabilidad asigne valores en el intervalo $[1, 7]$. Pero, ¿cuáles son sus parámetros?

Descuento hiperbólico: una perspectiva bayesiana

Por un lado, nos enseñan que para descontar flujos de caja futuros tenemos que usar la función exponencial —para una determinada tasa de descuento o, en algunos contextos, tipo de interés—:

$$\text{valor presente} = A \exp(-tr)$$

donde $A$ es una cierta cantidad que recibiremos en el momento futuro $t$ y donde $r$ es nuestra tasa de descuento.

Por otro lado, experimentos de la sicología y la economía conductual, parecen indicar que la gente se tiende a regir por una regla distinta, la del llamado descuento hiperbólico

Nuevo vídeo en YouTube: "Sobre chatGPT"

Aunque lo publiqué ya hace unos días, aquí llega formalmente el anuncio de mi vídeo sobre chatGPT:

Tiene una primera parte en la que hablo de cosas que hace bien, regular y mal y una segunda en la que investigo su dimensión moral.

Errores en cierto tipo de encuestas

En las encuestas a las que estamos acostumbrados se le pregunta a la gente cosas del tipo: ¿tiene Vd. perro? Luego, las respuestas se tabulan, etc. y se publican los resultados.

Pero en otras —por ejemplo, en la Encuesta de percepción de la ciencia y la tecnología en España— se preguntan cosas como: ¿vivieron los primeros humanos al mismo tiempo que los dinosaurios? Y allí no se trata de averiguar qué es lo que responde la gente sino, más bien, cuánta gente sabe la respuesta.

Una aplicación/ilustración casi "full Bayesian" del filtro de Kalman

Cuestiones que no vienen al caso me empujaron finalmente a escribir una entrada que llevaba creo que años aparcada: ilustrar el uso del filtro de Kalman desde una perspectiva explícitamente bayesiana, luego accesible.

Introducción

Esto va, en resumidas cuentas, de mejorar la precisión de un sensor (un GPS, p.e.) que proporciona información ruidosa sobre la posición de un objeto que se mueve en el espacio obedeciendo ciertas ecuaciones. En particular, voy a utilizar el caso de un móvil que parte del origen ($x_0 = 0$), con una velocidad inicial de $10$ y que está sometido a una aceleración constante de $-0.3$.

¿Converge Bayes demasiado rápido?

Siempre he tenido la sensación de que las posterioris convergen demasiado rápidamente. Fue, de hecho, la primera objeción que hizo el cliente hace ya muchos, muchos, años a los resultados de mi primer proyecto puramente bayesiano y desde entonces guardo la espinita clavada.

Por eso me siento reivindicado por What’s wrong with Bayes, una entrada de Andrew Gelman en su blog y en la que discute una inferencia ridícula. Es la siguiente:

¿Qué nos enseña la historia de los granos de trigo sobre el muestreo de las posterioris?

No hace falta que cuente aquella historia del tablero de ajedrez, los granos de trigo, etc. ¿verdad? (Desavisados: leed esto.) La entrada de hoy se ocupa de un problema dual: el número de granos de trigo será fijo, pero hay que repartirlo en un número explosivamente creciente de casillas.

Imagina ahora que quieres ajustar un modelo bayesiano usando MCMC. Imagina que tienes 1, 2, 3,… variables. Imagina el espacio de dimensión $n$ definido por dichas variables. El número de cuadrantes es $2^n$.