Creo que todos sabéis la historia de las admisiones de la Universidad de Berkeley y la paradoja de Simpson. Con palabras, muchas palabras, está contado, por ejemplo, aquí. Y si buscáis ubc admissions simpson en Google la encontraréis también en modo --verbose
en muchos más sitios.
En R puede resumirse en
library(reshape2)
library(plyr)
data(UCBAdmissions)
raw <- as.data.frame(UCBAdmissions)
dat <- dcast(raw, Gender + Dept ~ <a href="http://inside-r.org/packages/cran/AdMit">Admit)
mod.0 <- glm(cbind(Admitted, Rejected) ~ Gender, data = dat, family = binomial)
mod.1 <- glm(cbind(Admitted, Rejected) ~ Gender + Dept, data = dat, family = binomial)
Supongamos que los habitantes de un país tienen una probabilidad determinada (y no necesariamente igual) $latex p_i$ de comprar un determinado producto. Supongamos que se lanza una campaña publicitaria que incrementa en una cantidad fija $latex \epsilon$, p.e., 5%, esa probabilidad.
Supongamos, finalmente, que se trata de una cantidad que se desea estimar.
Unos individuos reciben la campaña publicitaria. Otros no. ¿Cuál es la diferencia entre las proporciones de individuos que compran el producto en uno y otro grupo? ¿$latex \epsilon$? ¿Es esa nuestra mejor estimación?
El día 26 de septiembre, alrededor del mediodía, participaré en el VI Encuentro Internacional de Investigación en Información y Comunicación.
Reproduzco aquí el no particularmente breve (y de hecho, el más largo de los publicados) resúmenes por si a alguien le tienta y se acerca:
Una parte fundamental de la labor de cualquier investigador consiste en interpretar adecuadamente los datos sobre los que trabaja. Existen innumerables obstáculos que dificultan dicho proceso: desde la inadecuada preparación para el análisis cuantitativo hasta los sesgos cognitivos estudiados por Kahneman, Tversky o Gigerenzer entre otros.
La respuesta es sí, obviamente. Pero no todo el mundo maneja la lógica retorcidamente y aplicado a la mediana de los salarios estadounidenses los más comenzaríamos a hacer distingos en lugar de encerrarnos en la tautología.
Leo en Revolutions cómo dicha mediana ha crecido un 1% anualmente desde el 2000. Pero, a la vez, la mediana ha descendido en cada uno de los grupos definidos por el nivel de estudios (sin, bachillerato, universitarios, etc.).