Estadística

La correlación ni siquiera implica "correlación"

Esto es, según Andrew Gelman, la correlación entre dos variables en una muestra ni siquiera implica su “correlación” (entre comillas, por distinguirlas) en la población de interés.

El enlace anterior también discute otras variantes del archiconocido “la correlación no implica causalidad”, tales como

  • la causalidad está correlacionada con la correlación,
  • la falta de correlación está correlacionada con la falta de causalidad,
  • etc.

que, si yo fuera tú, me apresuraría a consultar en el enlace anterior.

Sí, señor ministro... y encuestas

Cayó en mis manos

ss_netconfusion

que son los resultados de una encuesta en la que la misma pregunta (en puridad, una pregunta sobre una cuestión global y otra sobre un asunto particular de la anterior) reciben respuestas manifiestamente contrarias y contradictorias por parte de una muestra del ostentador de la soberanía.

Lo cual me recordó que hacía tiempo había dado con https://www.youtube.com/watch?v=G0ZZJXw4MTA extraído de Yes, Minister y que en inglés no subtitulado ilustra muy amenamente los efectos que sobre el público tiene la manera en que se plantean las cuestiones.

Como no tengo tiempo, voy a publicar una chorrada (y una coda)

Como no tengo tiempo, voy a publicar una chorrada. Voy a coger unos datos que encuentre por ahí, voy a tomar alguna variable, voy a pintarla (en un mapa, si puede ser) y luego voy a construir una narrativa. Espero que no os deis cuenta y me lo creáis todo.

Comienzo.

Los datos del World Values Survey (aquí podéis obtenerlos) son importantes y guays. De todas las variables que contiene, voy a extraer una, la variable importante (VMI).

Los coeficientes de la regresión logística con sobremuestreo

Esta entrada viene a cuento de una pregunta en r-help-es con, por referencia, este contexto:

Tengo un dataset con 4505 observaciones en el que la variable dependiente son presencias (n=97 y clasificadas como 1) y ausencias (n=4408 y clasificadas como 0).

Y la cuestión tiene que ver con la conveniencia de utilizar una muestra equilibrada o no de los datos al ajustar una regresión logística y si procede o no utilizar pesos.

Proyecciones, estimaciones, previsiones, operaciones... y churros

¿Os acordáis de lo de las proyecciones de población a largo plazo del INE? Atentos a lo que dice el instituto sobre ellas aquí (en la sección de acuracidad):

La elaboración de esta operación no está basada en una estimación estocástica de la evolución demográfica futura. En rigor, sus resultados no deben considerarse como una estimación del futuro, ni siquiera como una previsión. No cabe, por tanto, hablar de precisión o acuracidad de los mismos.

Simpson y la plebe anumérica

Supongamos que los habitantes de un país tienen una probabilidad determinada (y no necesariamente igual) $latex p_i$ de comprar un determinado producto. Supongamos que se lanza una campaña publicitaria que incrementa en una cantidad fija $latex \epsilon$, p.e., 5%, esa probabilidad.

Supongamos, finalmente, que se trata de una cantidad que se desea estimar.

Unos individuos reciben la campaña publicitaria. Otros no. ¿Cuál es la diferencia entre las proporciones de individuos que compran el producto en uno y otro grupo? ¿$latex \epsilon$? ¿Es esa nuestra mejor estimación?

Remuestreos y tests de hipótesis

No sé si visteis el vídeo que colgué el otro día. Trataba el problema de determinar si dos poblaciones

beer  <- c(27, 20, 21, 26, 27, 31, 24,
        21, 20, 19, 23, 24,
        18, 19, 24, 29, 18, 20, 17,
        31, 20, 25, 28, 21, 27)
water <- c(21, 22, 15, 12, 21, 16, 19,
        15, 22, 24, 19, 23, 13,
        22, 20, 24, 18, 20)

tienen o no la misma media. Más concretamente, si la población beer tiene una media superior a la de water como en efecto sucede:

mean(beer)
#[1] 23.2
mean(water)
#[1] 19.22222

¿Pero es esta diferencia significativa?

Muchos plantearían un t-test:

t.test(beer, water, alternative = "greater")
# Welch Two Sample t-test
#
# data:  beer and water
# t = 3.3086, df = 39.271, p-value = 0.001007
# alternative hypothesis: true difference in means is greater than 0
# 95 percent confidence interval:
#   1.952483      Inf
# sample estimates:
#   mean of x mean of y
# 23.20000  19.22222

Pero en el vídeo se propone una alternativa basada en remuestreos:

Estadística "clásica" vs remuestreo

Hace unos años, Juanjo Gibaja y yo organizamos un “curso de estadística moderna con R”. Queríamos mostrar en él que otra estadística es posible, que con la ayuda de los ordenadores (¡y de R!) los problemas clásicos de la estadística pueden afrontarse de otra manera. Y que esta manera es más natural y accesible.

Hoy uno de nuestros antiguos alumnos nos ha agradecido que le señalásemos el camino de esos superpoderes:

cencerrilla

¿Y si no se mantuvieran?

Comienzo mi entrada de hoy con una foto de Madrid en la nochevieja de 1964.

almacenes-arias_anos-601

Esta es otra de los hinchas del equipo nacional el mismo año en los prolegómenos de la final de la Eurocopa del mismo año, que le ganamos a la Unión Soviética.

espana_urss

Aquí encontrarán mis lectores otras escenas de lo que era costumbre en aquellas fechas de hace cincuenta años.

Y no, no quiero reconvertir mi bitácora en otras Escenas Matritenses. Solo quiero advertir que tal vez alguno de los que aparecen en esas fotos trabajaban en el INE de antaño y recibió uno de esos días que se retratan el encargo de predecir la evolución de la población española hasta la actualidad. A ese señor, sin barruntar siquiera el Franco ha muerto; el se sienten, coño; el a este país no lo va a conocer ni la madre que lo parió; el nosotras parimos, nosotras decidimos; el váyase Sr. González; el España va bien; ni, vamos, la famélica legión del Gurugú, le habría tocado armarse de escuadra y cartabón y proyectar rectas de tinta china con tiralíneas hasta el mismo día de hoy para contarnos algo que sabemos mucho mejor que él: cuántos españolitos somos ahora.