Carlos J. Gil Bellosta

rstan y rstanarm en Medialab-Prado este jueves

Este jueves (2016-02-11), a las 19:00, hablaré de rstan y de rstanarm en Medialab-Prado dentro de la reunión de usuarios de R de Madrid. Con el concurso de estos paquetes, replantearé tres problemas estadísticos conocidos desde una óptica bayesiana: Pruebas de hipótesis Regresión lineal Modelos estructurales de series temporales Si quieres asistir, reserva tu plaza aquí. Probablemente, discutiré todos esos modelos en estas páginas en los próximos días, además de colgar las diapositivas y sus fuentes.

Los resultados de esta investigación tienen puntos en común con la metodología científica aunque en ningún momento tendrán la misma validez ni tampoco es su intención que la tenga

¡Olé! Con la frase que titula esta entrada se cierra este artículo tan torero de eldiario.es. El resto de lo que se publica me viene de perillas para ilustrar a mis alumnos del máster de ciencia de datos de KSchool eso de la dependencia e independencia condicional. Lo que el artículo argumenta, y que nadie pone en duda, es que altas concentraciones de óxidos de nitrógeno (A) y picos de hospitalizaciones por enfermedades respiratiorias (B), no son eventos independientes. Es decir, que $P(A \cap B) \neq P(A)P(B)$. En otros términos, que nuestro conocimiento de A nos permite refinar nuestra estimación de B. Todo correcto. ...

Y termino con lo de los intervalos

Y termino con lo de los intervalos. Me refiero a esto y esto. Nunca me habría atrevido a escribir sobre el tema, y exponerme, de paso, a la muy razonadas explicaciones de quienes tuvieron a bien comentarlas, si no hubiese sido por un tema personal: el recuerdo de la frustración que me supuso hacerme en su día con la teoría subyacente tanto a las pruebas de hipótesis como a la construcción de intervalos de confianza. ...

Otra vuelta al caso del test que rechaza y el intervalo que contiene

Esta visita adicional al tema es consecuencia de mi revisión de todo el asunto de las pruebas de hipótesis. En particular, en el caso de prueba binomial, como en esta entrada, de la que la que lees es continuación. En particular, binom.test(79, 100, 0.7) # Exact binomial test # # data: 79 and 100 # number of successes = 79, number of trials = 100, p-value = 0.04982 # alternative hypothesis: true probability of success is not equal to 0.7 # 95 percent confidence interval: # 0.6970846 0.8650563 # sample estimates: # probability of success # 0.79 es un caso en el que la prueba rechaza (al nivel de confianza del 5% siempre) y el intervalo de confianza del parámetro cubre el valor 0.7 de partida. ...

Premoniciones de Tirole sobre sobre el R Consortium

A J. Tirole tiene Nobel de economía. En 2002 escribió un artículo, Some Simple Economics of Open Source, en el que trataba de explicar desde un punto de vista económico y de organización industrial el porqué de esa rareza. Aparte de cuestiones como si sería extrapolable a otros sectores distintos del del desarrollo de software. En la sección sobre la reacción de las compañías de software frente al fenómeno del software libre tiene un apartado titulado viviendo simbióticamente de [no con] un proyecto de código abierto que termina con la frase (mi traducción): ...

El test rechaza pero el intervalo contiene: [contra]ejemplos

De acuerdo con el saber popular, pruebas que rechazan acompañan a intervalos de confianza que no contienen. Pero foo <- function(N, p = 0.7){ n <- qbinom(0.975, N, p) tmp <- binom.test(n, N, p) c(tmp$p.value, tmp$conf.int, tmp$conf.int[1] < p & p < tmp$conf.int[2]) } res <- as.data.frame(t(sapply(20:200, foo))) res$n <- 20:200 res[res$V1 < 0.05,] no tiene cero filas.

PyData Madrid 2016, en abril de este año

Me llegan noticias de PyData Madrid 2016, que tendrá lugar en abril de este año en Madrid: Os pongo un poco en contexto. Las PyData empezaron como conferencias de desarrolladores y usuarios de herramientas Python para trabajar con datos. Las primeras se hicieron en Silicon Valley, Nueva York, Londres,… Actualmente hay conferencias en NY, SV, Dallas, Seattle, Boston, Londres, Berlín, Amsterdam, París, Colonia, Tokio, Singapur,…, y Madrid. Como he comentado, empezaron un poco enfocadas en Python pero ahora están mucho más abiertas y se habla de Julia, Python, R, Scala,… ...

Internet: la frutería y el sushi bar

Internet es en gran medida (y lo fue aún más) una especie de frutería: si quieres manzanas, vas a donde las manzanas; si quieres peras, vas a donde las peras, etc. Esta manera de organizar la información en internet tiene que ver con su sustrato tecnológico: la gente conecta servidores y en ellos coloca información sobre temas diversos. Luego, los buscadores nos ayudan a ubicar aquello en lo que estamos interesados. ...

Repensando la tiranía de la anarquía

Tener y cumplir reglas te puede hacer libre. La falta de reglas o su incumplimiento puede restringir tu libertad. Mi ejemplo favorito es el de las escaleras mecánicas del metro. En muchas ciudades opera y se cumple una regla no siempre escrita: si quieres permanecer quieto, quédate en el lado derecho y deja el lado izquierdo para quienes quieran subir más aprisa. Esa regla (o costumbre) te permite optar: lado derecho y no caminar; lado izquierdo y avanzar más rápido. ...

Comparaciones de tres grupos: pruebas vs modelos

Una pregunta reciente en r-help-es se refería a la comparación en R de las proporciones en tres grupos. Obviando algunas pequeñas complicaciones en el problema, la respuesta canónica podría ser esta: total <- c(56, 49,51) positivos <- c(14, 10, 17) prop.test(tmp$positivos, tmp$positivos + tmp$negativos) # 3-sample test for equality of proportions without continuity correction # # data: tmp$positivos out of tmp$positivos + tmp$negativos # X-squared = 2.2289, df = 2, p-value = 0.3281 # alternative hypothesis: two.sided # sample estimates: # prop 1 prop 2 prop 3 # 0.2500000 0.2040816 0.3333333 Los grupos no parecen ser desiguales. ...