Estadística Bayesiana

Trucos cutrebayesianos

El contexto Cada día $i$ ocurren eventos de cierta naturaleza (transacciones, fallecimientos, infartos, etc.) que interesa contar. El problema El número de eventos $n_i$ que ocurren el día $i$ no se conoce el día $i$ sino que va siendo conocido progresivamente los días $i+1, \dots$. Pero hace falta una estimación de $n_i$ antes del fin del mundo. Los datos La distribución de los $n_i$ (basados en el histórico). La proporción (probabilidad) $p_\Delta$ de eventos del día $i$ que se conocen el día $i+\Delta$. La solución prebayesiana ...

La h-filosofía de la estadística en once puntos

La estadística tiene que estar totalmente integrada en la investigación: el diseño experimental es fundamental. Que no te asuste utilizar métodos modernos Preserva toda la información disponible en los datos: evita categorizar los predictores continuos y los valores predichos No asumas que algo opera linealmente Ten en cuenta la incerditumbre sobre el (no del) modelo y trata de minimizarlo usando conocimiento previo sobre la materia Usa remuestreos Considera el tamaño muestral una variable aleatoria cuando sea posible Usa estadística bayesiana siempre que sea posible Usa buenos gráficos frecuentemente Para que sea creíble, la investigación tiene que ser reproducible Toda la manipulación de datos y el análisis estadístico tiene que ser reproducible ...

Weapons of Math Destruction

Así se titula un libro que no he leído y que, pese a lo cual, como los malos críticos, voy a comentar. Los libros suelen estar plagados de hojarasca, tal vez porque de otra manera no se puede hacer crecer un par de ideas más o menos originales a las cientoypico páginas como mínimo que uno espera encontrar entre dos tapas. El relato corto no da caché. Y yo ando corto de tiempo. ...

GLMs con prioris (casi) a voluntad

Esto que cuento hoy puede ser muy útil: cómo mejorar los GLMs mediante la introducción de prioris (casi) a voluntad sobre los coeficientes. Usando el paquete arm de R, claro. De momento y porque aún tengo sucios los datos sobre los que me gustaría aplicar el modelo, extraeré un ejemplo de la ayuda de la función principal del paquete, bayesglm. Primero, preparo unos datos: n <- 100 x1 <- rnorm (n) x2 <- rbinom (n, 1, .5) b0 <- 1 b1 <- 1.5 b2 <- 2 y <- rbinom (n, 1, invlogit(b0+b1*x1+b2*x2)) Comenzamos con un glm de toda la vida. ...

Metropolis-Hastings en Scala

Tengo la sensación de que un lenguaje funcional (como Scala) está particularmente bien adaptado al tipo de operaciones que exige MCMC. Juzguen Vds. Primero, genero datos en R: datos <- rnorm(500, 0.7, 1) writeLines(as.character(datos), "/tmp/datos.txt") Son de una normal con media 0.7. En el modelo que vamos a crear, suponemos conocida (e igual a 1) la varianza de la normal y trataremos de estimar la media suponiéndole una distribución a priori normal estándar. Y con Scala, así: ...

Si vas a Londres, déjate caer por (51.523841, -0.089310)

Porque ahí puedes tomarte una foto tal que o y luego tuitear cosas como After #StrataHadoop: @jayusor and me in front of Bayes grave with my new @OReillyMedia book (emulating @gilbellosta) pic.twitter.com/SlguJIeLw0 — Antonio Sánchez Chinchón (@aschinchon) June 4, 2016 Para mayor referencia (y por tenerlo a mano cuando vuelva),

Diapositivas de mi charla "Datos, modelos y parámetros"

Las diapositivas de mi charla Datos, modelos y parámetros en el grupo Machine Learning Spain pueden verse/bajarse de aquí.

¿Nos vemos en el Machine Learning Spain XII?

Porque voy a dar una charla en él. Es este jueves, por la tarde, en el Campus de Google de Madrid (los detalles). Se tratará de una introducción a y justificación de aproximaciones más bayesianas de lo habitual a problemas reales del análisis de datos. Que comenzará con una explicación sobre cuándo 100% no significa 100% para terminar con lo que viene siéndome habitual últimamente: un ejemplo en rstan con su discusión.

Los tres contraargumentos habituales

Hago pública por su interés (parte de) una respuesta de Ramón Díaz Uriarte a un correo mío en el que yo sugería que una vez que sabes especificar un modelo probabilístico para unos datos, p.e., para la regresión lineal, y ~ N(a0 + a1 x1 +..., sigma)), para el test de Student, y0 ~ N(mu, sigma); y1 ~ N(mu + delta, sigma), etc. no hace falta saber qué es lm, ni el test de Student, ni nada. Cero teoría; sobre todo, de teoría tipo recetario. Se especifica el modelo (con una determinada sintaxis), se deja correr la cosa y a interpretar. Su respuesta: ...

rstan y rstanarm en Medialab-Prado este jueves

Este jueves (2016-02-11), a las 19:00, hablaré de rstan y de rstanarm en Medialab-Prado dentro de la reunión de usuarios de R de Madrid. Con el concurso de estos paquetes, replantearé tres problemas estadísticos conocidos desde una óptica bayesiana: Pruebas de hipótesis Regresión lineal Modelos estructurales de series temporales Si quieres asistir, reserva tu plaza aquí. Probablemente, discutiré todos esos modelos en estas páginas en los próximos días, además de colgar las diapositivas y sus fuentes.