Estadística

Comienzo mi entrada de hoy con una foto de Madrid en la nochevieja de 1964.

Esta es otra de los hinchas del equipo nacional el mismo año en los prolegómenos de la final de la Eurocopa del mismo año, que le ganamos a la Unión Soviética.

Aquí encontrarán mis lectores otras escenas de lo que era costumbre en aquellas fechas de hace cincuenta años.

Y no, no quiero reconvertir mi bitácora en otras Escenas Matritenses. Solo quiero advertir que tal vez alguno de los que aparecen en esas fotos trabajaban en el INE de antaño y recibió uno de esos días que se retratan el encargo de predecir la evolución de la población española hasta la actualidad. A ese señor, sin barruntar siquiera el Franco ha muerto; el se sienten, coño; el a este país no lo va a conocer ni la madre que lo parió; el nosotras parimos, nosotras decidimos; el váyase Sr. González; el España va bien; ni, vamos, la famélica legión del Gurugú, le habría tocado armarse de escuadra y cartabón y proyectar rectas de tinta china con tiralíneas hasta el mismo día de hoy para contarnos algo que sabemos mucho mejor que él: cuántos españolitos somos ahora.

El otro día hablaba con una colega sobre una charla a la que habíamos asistido. Yo le decía que sí, que estaba bien, pero que todo lo que habían contado era mentira. Debí haber sido más preciso y decir que no era verdad, que es distinto. Pero las canapescas circunstancias no eran propicias para el distingo. Mi interlocutora me escuchaba, pienso, entre sorprendida e incrédula. Todavía está en la edad en la que hay que creérselo todo —sí, esa edad y esa obligación existe— y tiempo tendrá de dejarse envenenar por el nihilismo. Es lo suficientemente lista como para eso.

Todos hemos comido macarrones con cosas de la nevera. Estás en casa, tienes hambre y, si no hay otra cosa, son estupendos. Distinto es ir a un bodorrio de alto copete y decirle al camarero:

—Oiga, esto del solomillo y tal… ¿No tendrán Vds. un platazo de macarrones con cosas de la nevera?

Viene esto a que cierta gente trabaja con grandes datos. Y quieren construir modelos. Y por algún motivo que no comprendo del todo, optan por la regresión logística. Hay mil motivos por los que estaría desaconsejado ajustar regresiones logísticas con todos los datos. Aun así, hay gente —sí, la hay— que lo hace.

Hoy voy a hablar de esa especie de oxímoron que es el el bootstrap bayesiano. Comenzaré planteando un pequeño problema bien conocido: tenemos números $latex x_1, \dots, x_n$ y hemos calculado su media. Pero nos preguntamos cómo podría variar dicha media (de realizarse otras muestras).

La respuesta de Efron (1979) es esta:

replicate(n, mean(sample(x, length(x), replace = TRUE)))

Es decir, crear muestras de $latex x_i$ con reemplazamiento y hacer la media de cada una de ellas para obtener su presunta distribución (o una muestra de la presunta distribución de esa media).

Te encargan un modelo. Por ejemplo, relacionado con el uso de tarjetas de débito y crédito (aunque a lo que me referiré ocurre en mil otros contextos). Una variable que consideras importante es la proporción de veces que se usa para sacar dinero de cajeros (y no para pagar en establecimientos). Así que, para cada cliente, divides el número de retiradas por el número de veces que la tarjeta se ha usado y obtienes ese número entre el 0 y el 1 (o entre el 0% y el 100%).

Me gusta criticar. Bien lo saben quienes me siguen. Pero hoy toca aplaudir un artículo tan raro como valiente. Que no hace sino criticar por mí. Se titula On the Near Impossibility of Measuring the Returns to Advertising. Sus autores, quiero subrayarlo aquí, trabajan en Google y Microsoft.

Los métodos data driven gozan del mayor de los predicamentos. Véase una pequeña muestra extraída de una reciente conversación en Twitter:

Hoy he encontrado esto en Twitter:

Míralo bien. Vuelve a mirarlo. Efectivamente, los ricos votaron en contra de la independencia; los pobres, a favor. ¿Verdad?

Muchos, yo incluido, estamos inclinados a pensarlo así. Los resultados de una pequeña muestra que he hecho en la oficina han sido contundentes: todos, a pesar de sus doctorados, han estado de acuerdo unánimemente con el juicio anterior.

Así que ha sucedido lo siguiente:

Voy a escribir sobre un artículo como no debe hacerse: sin haberlo leído. Los bayesianos dirían que esta opinión que aquí voy a vertir es mi prior para cuando encuentre el tiempo y bajo la cual matizaré lo que en el se diga. Lo advierto, en todo caso, para que quien me lea no renuncie al sanísimo escepticismo.

Voy a hablar de Inferring causal impact using Bayesian structural time-series models y del paquete de R que lo acompaña, CausalImpact, cuyos autores trabajan en Google.

Tuve que saltarme una diapositiva en el DataBeers de Madrid del pasado jueves.

(A propósito, aquí están las 1+20 diapositivas.)

La decimonona, de la que trata la entrada, viene a hablar de lo siguiente. Tenemos una base de datos con sujetos (ids) que hacen cosas en determinados momentos. No es inhabitual calcular la frecuencia de esos sujetos así:

select id, count(*) as freq
from mytabla
where fecha between current_date - 7 and current_date
group by id
;

Esa variable se utiliza frecuentemente ya sea como descriptor de los sujetos o como alimento de otros modelos.

Si lees estas líneas y vives en Madrid o sus alrededores, casi seguro que te interesa el DataBeers de esta tarde. Que a sus tradicionales bondades añade en esta ocasión la de que participaré y hablaré durante seis minutos y veinte segundos sobre mascotas y rebaños de modelos.

¿Nos veremos?

Estadística

¿Y si no se mantuvieran?

Tres sigmas o nanay

Los tests de hipótesis son los macarrones "con cosas de la nevera"

Bootstrap bayesiano

El problema del 100% (y un ensayo de solución)

Decisiones basadas en datos: ¿siempre posibles en la práctica?

Tirar la piedra, esconder la mano

El impacto (causal) de Google

La diapositiva perdida, versión algo más extendida

Recordatorio: esta tarde participo en el DataBeers de Madrid