Remuestreo

Siete llaves al sepulcro del método delta

El desafortunado tuit

es de lo más parecido a que me repitan unos chorizos que me ha ocurrido últimamente. Salvo que en lugar de chorizos, lo que se me manifestaban fueron años estudiando matemáticas y, por extensión, las partes más analíticas de la estadística.

P-valores y decisiones

Los números de esta entrada son reales aunque disfrazados: proceden de un proyecto real. Para medir la efectividad de una serie de modelos que hemos creado en Circiter, hemos pedido al cliente lo de siempre: que parta la lista de sujetos en dos al azar para después poder medir los éxitos y fracasos usando dos procedimientos distintos.

Pero como tenemos dudas acerca del proceso de partición —que no controlamos nosotros— hemos medido el número de éxitos y fracasos en cada uno de los grupos en una prueba previa. Esperábamos que las proporciones fuesen similares en ambos grupos y hemos obtenido esto:

Estadística "clásica" vs remuestreo

Hace unos años, Juanjo Gibaja y yo organizamos un “curso de estadística moderna con R”. Queríamos mostrar en él que otra estadística es posible, que con la ayuda de los ordenadores (¡y de R!) los problemas clásicos de la estadística pueden afrontarse de otra manera. Y que esta manera es más natural y accesible.

Hoy uno de nuestros antiguos alumnos nos ha agradecido que le señalásemos el camino de esos superpoderes:

Más allá del teorema central del límite

Uno espera la media de un número suficiente de variables aleatorias razonablemente iid tenga una distribución normal. Uno casi espera siempre obtener ese aburrido histograma cada vez que remuestrea medias. La gente dice que el teorema central del límite rige necesariamente cuando su tamaño muestral es del orden de magnitud del bruto anual de un gerifalte. Etc.

Pero a veces uno tropieza con distribuciones bootstrap tales como

whentheoutlierisbigenough