Simpson y la plebe anumérica

Supongamos que los habitantes de un país tienen una probabilidad determinada (y no necesariamente igual) $latex p_i$ de comprar un determinado producto. Supongamos que se lanza una campaña publicitaria que incrementa en una cantidad fija $latex \epsilon$, p.e., 5%, esa probabilidad.

Supongamos, finalmente, que se trata de una cantidad que se desea estimar.

Unos individuos reciben la campaña publicitaria. Otros no. ¿Cuál es la diferencia entre las proporciones de individuos que compran el producto en uno y otro grupo? ¿$latex \epsilon$? ¿Es esa nuestra mejor estimación?

Descargar ficheros .gz detrás de HTTPS con R

R

El problema consiste en leer, por ejemplo, [https://stat.ethz.ch/pipermail/r-help-es/2012-August.txt.gz](https://stat.ethz.ch/pipermail/r-help-es/2012-August.txt.gz).

Desde Windows, por algún motivo, es sencillo: se puede usar download.file y luego, readLines directamente (porque no sé si sabéis que esta y otras funciones similares saben leer directamente ficheros comprimidos con gzip).

En Linux parece algo más complicado: download.file se niega a bajar ficheros usando el protocolo [https](http://en.wikipedia.org/wiki/HTTP_Secure). Lo mejor que he sabido hacer es

library(httr)
x <- GET("https://stat.ethz.ch/pipermail/r-help-es/2012-August.txt.gz")
tmp <- tempfile()
writeBin(content(x, "raw"), tmp)
res <- readLines(tmp)
unlink(tmp)

que es feo, feo, feo.

¿Un 30% de probabilidad de que llueva mañana?

¿Qué significa que [los servicios meteorológicos digan que] hay un 30% de probabilidad de que llueva mañana? Pues resulta que significa distintas cosas para distintas personas, al menos, según A 30% Chance of Rain Tomorrow: How Does the Public Understand Probabilistic Weather Forecasts?

En ese artículo Gigerenzer y sus coautores proponen a una muestra de sujetos las opciones siguientes:

  • Mañana lloverá el 30% del tiempo.
  • El 30% de los días que siguen a uno como el de hoy, llueve.
  • Lloverá en el 30% de la zona

El artículo existe precisamente porque la opción elegida por muchos de los entrevistados no es la que conocen mis lectores sin necesidad de reverlársela.

Remuestreos y tests de hipótesis

No sé si visteis el vídeo que colgué el otro día. Trataba el problema de determinar si dos poblaciones

beer  <- c(27, 20, 21, 26, 27, 31, 24,
        21, 20, 19, 23, 24,
        18, 19, 24, 29, 18, 20, 17,
        31, 20, 25, 28, 21, 27)
water <- c(21, 22, 15, 12, 21, 16, 19,
        15, 22, 24, 19, 23, 13,
        22, 20, 24, 18, 20)

tienen o no la misma media. Más concretamente, si la población beer tiene una media superior a la de water como en efecto sucede:

mean(beer)
#[1] 23.2
mean(water)
#[1] 19.22222

¿Pero es esta diferencia significativa?

Muchos plantearían un t-test:

t.test(beer, water, alternative = "greater")
# Welch Two Sample t-test
#
# data:  beer and water
# t = 3.3086, df = 39.271, p-value = 0.001007
# alternative hypothesis: true difference in means is greater than 0
# 95 percent confidence interval:
#   1.952483      Inf
# sample estimates:
#   mean of x mean of y
# 23.20000  19.22222

Pero en el vídeo se propone una alternativa basada en remuestreos:

Estadística "clásica" vs remuestreo

Hace unos años, Juanjo Gibaja y yo organizamos un “curso de estadística moderna con R”. Queríamos mostrar en él que otra estadística es posible, que con la ayuda de los ordenadores (¡y de R!) los problemas clásicos de la estadística pueden afrontarse de otra manera. Y que esta manera es más natural y accesible.

Hoy uno de nuestros antiguos alumnos nos ha agradecido que le señalásemos el camino de esos superpoderes:

cencerrilla

Dislexia probabilística

Esta entrada trata de cuadrados. Tales como estos

cuadros_separados

Son dos cuadrados de area 10 y 2.

En realidad, mi entrada trata de una configuración de cuadrados solo marginalmente más complicada, esta:

cuadros_solapados

Todo el mundo podría decir (y es cierto) que el área de la intersección de los cuadrados es el 3.3% de la del mayor y el 16.5% de la del menor. Son dos afirmaciones ambas ciertas y, por supuesto, compatibles.

Españoles hererodoxos (¿outliers patrios?)

Esta pretendía ser una entrada seria que guardaba en recocina desde aquella mala hora en que me pregunté qué había hecho el CSIC por mí. Pero salió bufa. A pesar de eso, acabó entroncando con dos de mis otras aficiones: las vidas y costumbres de los españoles heterodoxos y los fenómenos que suceden a muchas sigmas de las medias.

Fue en este punto,

patentes

donde comenzaron a desviarse (o divertirse, en sentido etimológico) mis pesquisas. La anterior captura está extraída de la memoria anual de 2013 de la Oficina Española de Patentes y Marcas. Y, por si alguien no lo ha advertido, en la lista figuran dos señores con más patentes que cualquier universidad española.

¿Y si no se mantuvieran?

Comienzo mi entrada de hoy con una foto de Madrid en la nochevieja de 1964.

almacenes-arias_anos-601

Esta es otra de los hinchas del equipo nacional el mismo año en los prolegómenos de la final de la Eurocopa del mismo año, que le ganamos a la Unión Soviética.

espana_urss

Aquí encontrarán mis lectores otras escenas de lo que era costumbre en aquellas fechas de hace cincuenta años.

Y no, no quiero reconvertir mi bitácora en otras Escenas Matritenses. Solo quiero advertir que tal vez alguno de los que aparecen en esas fotos trabajaban en el INE de antaño y recibió uno de esos días que se retratan el encargo de predecir la evolución de la población española hasta la actualidad. A ese señor, sin barruntar siquiera el Franco ha muerto; el se sienten, coño; el a este país no lo va a conocer ni la madre que lo parió; el nosotras parimos, nosotras decidimos; el váyase Sr. González; el España va bien; ni, vamos, la famélica legión del Gurugú, le habría tocado armarse de escuadra y cartabón y proyectar rectas de tinta china con tiralíneas hasta el mismo día de hoy para contarnos algo que sabemos mucho mejor que él: cuántos españolitos somos ahora.

Análisis discriminante a la Ortega y Gasset

Los eventos que han sucedido en los últimos días en España (y los que habrán de acontecer muy pronto) me han traído a la memoria y me han urgido a reproducir un breve escrito de Ortega. Pensado para su lectura por los niños españoles —que, se ve, no le hicieron mucho caso— y datado en 1928, es necesario como nunca para los adultos de hoy.

El porvenir de España depende enteramente de vosotros los niños españoles. Y dentro de vosotros, niños españoles, depende enteramente de que aprendáis o no aprendáis una cosa. ¿Sabéis cuál? Esto que habéis de aprender y cultivar en vosotros exquisitamente, niños españoles, es lo que en mayor grado faltaba a nuestros padres y nuestros abuelos. ¿Sabéis qué es? ¡Ah!, una cosa que parece muy sencilla. Esta: distinguir entre personas.