Binomial

Sobre el modelo beta-binomial con "deriva"

Planteamiento del problema

El modelo beta-binomial es precisamente el que estudió el reverendo Bayes. Es tan viejo como la estadística bayesiana: tienes una moneda, la tiras repetidamente y vas afinando progresivamente la estimación de la probabilidad de cara asociada a tal moneda.

Una variante habitual del problema anterior ocurre cuando hay una deriva (uso deriva como traducción de shift) en la probabilidad de la cara de la moneda: puedes estar tratando de vender productos en Amazon y estimar el número de ventas por impresión; es tentador usar el modelo beta-binomial, pero hay un problema: ¿los datos de hace tres años, siguen siendo relevantes?; ¿habrán cambiado en tanto las probabilidades?; en tal caso, ¿qué se puede hacer?

ABC (II)

Más sobre lo de ayer. O más bien, una justificación por analogía.

Con monedas.

Tiras una moneda 100 veces y obtienes 60 caras. Tienes una priori $latex B(a,b)$ (beta). Tomas una muestra de valores $latex p_i$ con esa distribución y para cada una de ellas repites el experimento, es decir, obtienes lo que en R se expresaría de la forma

rbinom(1, 100, p[i])

Si te quedas los valores $p_i$ tales que esa simulación es 60, enhorabuena, tienes una muestra de la distribución a posteriori.

Sobre el problema de las martingalas: ¿cuántos sabíais la respuesta?

Pues no se sabe bien. Además, habrá quién pudiéndola haber averiguado, prefirió dejarse llevar por la intuición y errar. Pero volvamos a los hechos. Dado

la pregunta urgente es: ¿cuántos podrían haber conocido la respuesta? Suponiendo que el conocimiento de la respuesta es algo binarizable (¿lo es?), la distribución del número de respuestas correctas sería $latex pN + X$, donde $latex N$ es el número total de respuestas, $latex p$ es la proporción de quienes sabe la respuesta y $latex X \sim B(N - pN, 1/3)$, suponiendo siempre que $latex pN$ es entero.

Las prioris no informativas están manifiestamente sobrevaloradas

La estadística bayesiana se enseña en cursos de estadística (y, frecuentemente, envuelto en un aparataje matemático tan ofuscante como innecesario). Lo malo es que en los cursos y textos de estadística no existe información previa. La información previa sobre los fenómenos en los que se utilizaría la estadística bayesiana están en las aplicaciones, extramuros del muy agnóstico mundo de la estadística y la matemática.

Por eso, a los autores de los libros de estadística bayesiana y quienes enseñan cursos sobre lo mismo, enfrentados al problema de llenar de sentido la problemática distribución a priori, no se les ocurre nada mejor que discutir muy sesudamente la excepción (la priori no informativa) en lugar de la regla (la priori informativa). Reto al lector escéptico a que repase cualquier manual en la materia (que no haya sido escrito por Gelman) y compare el espacio que dedican a la selección de prioris no informativas con el de convenir una priori informativa decente.

¿Por qué el empate de la CUP es más raro de lo que parece (y de lo que yo mismo digo)?

Menos el de un presunto profesor,

La probabilidad de que 3030 votantes en la #ANECUP empaten con 1515 votos es 1 / 3029 = 0.00033014, lo que corresponde a un suceso imposible

– Mario Bilbao (@mario_bilbao) December 27, 2015

todos los análisis que he visto al respecto (1, 2, 3), incluido el mío, coinciden en señalar que la probabilidad de empate en el muy manido acto asambleario de la CUP es relativamente alta: alrededor del 1,5%. Y más todavía si se tienen en cuenta los resultados de las votaciones previas.