Muestras Pequeñas

Nuevo vídeo en YouTube: "¿Se pueden estimar probabilidades pequeñas con pocas observaciones?"

Acabo de subir un nuevo vídeo a Youtube,

en el que discuto dos problemas: uno, general, que es el que indica su título; y otro más concreto que es su motivación última: si es posible asegurar que la combinación de vacunas es segura a través de un estudio realizado con 600 sujetos, tal como el realizado por el ISCIII recientemente.

Sobre la "inferencia basada en magnitudes"

Este artículo (sobre si los estadísticos se autoaplican el mismo rigor metodológico a la hora de seleccionar herramientas de análisis que luego exigen a otros) me llevó a este otro artículo donde se menciona una técnica, la inferencia basada en magnitudes, MBI en lo que sigue, por sus siglas en inglés, de la que trata lo que sigue.

Buscaban las autoras del segundo artículo un ejemplo de una técnica de esas que se publican en revistas de metodología estadística que acabara no teniéndose de pie. La encontraron en la MBI, que es una técnica:

Big vs small data en estadística aplicada aplicada

Tengo un proyecto entre manos. Trata de medir un efecto pequeño bajo una condición experimental (una palanca que se puede subir y bajar) con un enorme ruido de fondo (debido a factores para los que no existe la susodicha palanca). Existen dos aproximaciones que, en su versión resumida, son:

  • Datos pequeños: recoger un conjunto pequeño de mediciones en un contexto en el que los factores no controlables sean constantes (aunque en la práctica no lo vayan a ser).
  • Datos grandes: recoger muchas mediciones alterando el factor controlable a lo largo de un periodo de tiempo extenso.

Se supone —y lo advierto, sobre todo para evitar que algún purista quiera señalar que lo es— en ambos casos, que existe cierta aleatorización del factor experimental para que sea lo más ortogonal posible al ruido no controlado.

Gráficos de embudo para controlar la varianza en muestras pequeñas

Publiqué hace un tiempo una entrada en esta bitácora sobre el problema que representa la desigualdad de los tamaños muestrales a la hora de comprender cierto tipo de datos, como por ejemplo, los que trata de representar el gráfico

que muestra la incidencia del cáncer de riñón en distintas zonas de en EE.UU. Como indiqué entonces, los valores extremos se encuentran en zonas menos pobladas: cuanto menor es la población, más probables son las proporciones inhabituales.

De la varianza en muestras pequeñas (y el problema del hospital)

En un artículo que enlacé hace un tiempo se planteó el que después recibiría el nombre del problema del hospital:

En una ciudad hay dos hospitales. En el grande, hay, en promedio, 45 partos al día; en el pequeño, 15. La probabilidad de que un recién nacido sea niño o niña se supone igual al 50 %. ¿En qué hospital es más probable que en un día dado la proporción de niñas exceda el 60%?