Diapositivas (y código fuente) de mi charla sobre rstan
Las diapositivas de mi charla sobre rstan
en el grupo de usuarios de R de Madrid del 2016-02-11 están aquí.
(Y los vídeos).
Las diapositivas de mi charla sobre rstan
en el grupo de usuarios de R de Madrid del 2016-02-11 están aquí.
(Y los vídeos).
Podemos hacerlo seleccionando aleatoriamente (uniformemente)
Obviamente, los tres mecanismos anteriores generarán distribuciones de muestreo diferentes (¿cuáles?).
Una trivialidad, tal vez, que tiene que ver con esto y con esto.
Este jueves (2016-02-11), a las 19:00, hablaré de rstan
y de rstanarm
en Medialab-Prado dentro de la reunión de usuarios de R de Madrid. Con el concurso de estos paquetes, replantearé tres problemas estadísticos conocidos desde una óptica bayesiana:
Si quieres asistir, reserva tu plaza aquí.
Probablemente, discutiré todos esos modelos en estas páginas en los próximos días, además de colgar las diapositivas y sus fuentes.
¡Olé!
Con la frase que titula esta entrada se cierra este artículo tan torero de eldiario.es.
El resto de lo que se publica me viene de perillas para ilustrar a mis alumnos del máster de ciencia de datos de KSchool eso de la dependencia e independencia condicional.
Lo que el artículo argumenta, y que nadie pone en duda, es que altas concentraciones de óxidos de nitrógeno (A) y picos de hospitalizaciones por enfermedades respiratiorias (B), no son eventos independientes. Es decir, que $latex P(A \cap B) \neq P(A)P(B)$. En otros términos, que nuestro conocimiento de A nos permite refinar nuestra estimación de B. Todo correcto.
Y termino con lo de los intervalos. Me refiero a esto y esto.
Nunca me habría atrevido a escribir sobre el tema, y exponerme, de paso, a la muy razonadas explicaciones de quienes tuvieron a bien comentarlas, si no hubiese sido por un tema personal: el recuerdo de la frustración que me supuso hacerme en su día con la teoría subyacente tanto a las pruebas de hipótesis como a la construcción de intervalos de confianza.
Esta visita adicional al tema es consecuencia de mi revisión de todo el asunto de las pruebas de hipótesis. En particular, en el caso de prueba binomial, como en esta entrada, de la que la que lees es continuación.
En particular,
binom.test(79, 100, 0.7)
# Exact binomial test
#
# data: 79 and 100
# number of successes = 79, number of trials = 100, p-value = 0.04982
# alternative hypothesis: true probability of success is not equal to 0.7
# 95 percent confidence interval:
# 0.6970846 0.8650563
# sample estimates:
# probability of success
# 0.79
es un caso en el que la prueba rechaza (al nivel de confianza del 5% siempre) y el intervalo de confianza del parámetro cubre el valor 0.7 de partida.
De acuerdo con el saber popular, pruebas que rechazan acompañan a intervalos de confianza que no contienen.
Pero
foo <- function(N, p = 0.7){
n <- qbinom(0.975, N, p)
tmp <- binom.test(n, N, p)
c(tmp$p.value, tmp$conf.int,
tmp$conf.int[1] < p & p < tmp$conf.int[2])
}
res <- as.data.frame(t(sapply(20:200, foo)))
res$n <- 20:200
res[res$V1 < 0.05,]
no tiene cero filas.
Una pregunta reciente en r-help-es se refería a la comparación en R de las proporciones en tres grupos. Obviando algunas pequeñas complicaciones en el problema, la respuesta canónica podría ser esta:
total <- c(56, 49,51)
positivos <- c(14, 10, 17)
prop.test(tmp$positivos, tmp$positivos + tmp$negativos)
# 3-sample test for equality of proportions without continuity correction
#
# data: tmp$positivos out of tmp$positivos + tmp$negativos
# X-squared = 2.2289, df = 2, p-value = 0.3281
# alternative hypothesis: two.sided
# sample estimates:
# prop 1 prop 2 prop 3
# 0.2500000 0.2040816 0.3333333
Los grupos no parecen ser desiguales.
A veces se hacen encuestas sobre temas sobre los que los encuestados son reticentes a revelar la verdad (p.e., ¿es Vd. un zombi?). Un procedimiento conocido para recabar tal tipo de información es el siguiente:
A partir de la proporción de respuestas positivas y conocida la probabilidad del sí de la moneda, $latex q$, es posible estimar la proporción $latex \theta$ de respuestas positivas a la pregunta de subyacente de interés en la muestra. Efectivamente, los síes tienen una distribución binomial $latex B(p) = B(q\theta + (1-q)(1-\theta))$ y, una vez estimado (por máxima verosimilitud) $latex \hat{p}$, puede despejarse $latex \hat{p}$ de $latex \hat{p} = q\hat{\theta} + (1-q)(1-\hat{\theta})$ para obtener
El artículo cuya lectura propongo hoy comienza así:
La zombificación es un gran problema de salud y de seguridad pública muy difícil de estudiar usando los métodos tradicionales basados en encuestas. Se cree que la tasa de penetración del teléfono entre la población zombi es pequeña. Además, los zombis son reacios a identificarse como tales al ser encuestados. Las entrevistas personales suponen un riesgo elevado para quienes las realizan. Las esperanzas originalmente depositadas en las encuestas a través del ordenador se desvanecieron ante el riesgo de que los virus propagasen la infección zombi.