Big vs small data en estadística aplicada aplicada
Tengo un proyecto entre manos. Trata de medir un efecto pequeño bajo una condición experimental (una palanca que se puede subir y bajar) con un enorme ruido de fondo (debido a factores para los que no existe la susodicha palanca). Existen dos aproximaciones que, en su versión resumida, son:
- Datos pequeños: recoger un conjunto pequeño de mediciones en un contexto en el que los factores no controlables sean constantes (aunque en la práctica no lo vayan a ser).
- Datos grandes: recoger muchas mediciones alterando el factor controlable a lo largo de un periodo de tiempo extenso.
Se supone —y lo advierto, sobre todo para evitar que algún purista quiera señalar que lo es— en ambos casos, que existe cierta aleatorización del factor experimental para que sea lo más ortogonal posible al ruido no controlado.