Bajo hipótesis razonables, hacen falta 16 veces más observaciones para estimar una interacción que para estimar un efecto principal
Uno de los grandes temas de estas páginas es que el efecto principal de un tratamiento es un indicador demasiado burdo. Casi siempre queremos ver ese efecto propiamente desglosado: a unos sujetos les afecta más, a otro menos.
Para lograr ese objetivo, hay que estudiar cómo interactúa el efecto con otras variables (p.e., sexo). Desafortunadamente, cuanto mayor es el grado de desglose, más incertidumbre existe sobre las estimaciones; a la inversa, para lograr una mayor precisión en las estimaciones, hace falta incrementar el tamaño muestral. Pero, ¿cuánto?
Andrew Gelman ha usado frecuentemente en su blog la siguiente heurística: hacen falta 16 veces más observaciones para estimar una interacción —implícitamente: con una variable binaria (¡glups!), como el sexo— que para estimar el efecto principal. Afortunadamente, tiene un par de entradas (esta y esta) en las que justifica dicha heurística.
El razonamiento se basa en lo siguiente:
- Si se usan promedios —que es equivalente a la regresión lineal— para estimar el efecto principal y una interacción (binaria), el error estándar de la interacción es el doble que el del efecto principal.
- Es razonable suponer que una interacción tendrá la mitad de la magnitud de un efecto principal.
- Por lo tanto, el tamaño del efecto verdadero dividido por el error estándar es 4 veces mayor para la interacción que para el efecto principal.
- Para lograr un nivel equivalente de potencia estadística para la estimación de la interacción, hace falta un tamaño muestral 4^2 = 16 veces el necesario para un efecto principal.
La tensión entre señal y ruido / sesgo y varianza en estado puro.
La regla es un tanto antiintuitiva porque de manera naif, uno podría suponer que hace falta el doble de observaciones: el problema de calcular el efecto de una interacción es prácticamente equivalente al de estimar el efecto principal para un conjunto de datos que contiene únicamente la subpoblación de interés (que se supone que es el 50% de la total). Es instructivo repasar el argumento de Gelman para identificar dónde falla este.