Interacciones

Bajo hipótesis razonables, hacen falta 16 veces más observaciones para estimar una interacción que para estimar un efecto principal

Uno de los grandes temas de estas páginas es que el efecto principal de un tratamiento es un indicador demasiado burdo. Casi siempre queremos ver ese efecto propiamente desglosado: a unos sujetos les afecta más, a otro menos.

Para lograr ese objetivo, hay que estudiar cómo interactúa el efecto con otras variables (p.e., sexo). Desafortunadamente, cuanto mayor es el grado de desglose, más incertidumbre existe sobre las estimaciones; a la inversa, para lograr una mayor precisión en las estimaciones, hace falta incrementar el tamaño muestral. Pero, ¿cuánto?

¿De dónde vienen las interacciones?

El contexto es, esencialmente, la creación de modelos lineales —no necesariamente los clásicos—, aunque la discusión podría extenderse más allá. Una cosa que nos suelen enseñar los libros es que si en un modelo de la pinta

y ~ t + g

(donde t es un tratamiento y g es algún tipo de grupo) nos da por introducir una interacción (en este caso solo cabe t*g) tenemos necesariamente que incluir los efectos individuales t y g so pena de incurrir en una larga retahíla de pecados estadísticos. La admonición suele venir seguida de una discusión que, admito, nunca he acabado de comprender.

k-vecinos + lmer

El de los k-vecinos es uno de mis métodos favoritos de modelización. Al menos, teóricamente: luego, en la práctica, es complicado construir una función de distancias decente. Pero tiene la ventaja indiscutible de ser tremendamente local: las predicciones para una observación concreta dependen únicamente de su entorno.

lme4::lmer (y sus derivados) es ya casi la lente a través de la que imagino cómo operan las variables dentro de un modelo. Desafortunadamente, es un modelo global y no gestiona particularmente bien las interacciones, cuando son muchas y complejas.

Interacciones y selección de modelos

Desafortunadamente, el concepto de interacción, muy habitual en modelización estadística, no ha penetrado la literatura del llamado ML. Esencialmente, el concepto de interacción recoge el hecho de que un fenómeno puede tener un efecto distinto en subpoblaciones distintas que se identifican por un nivel en una variable categórica.

El modelo lineal clásico,

$$ y \sim x_1 + x_2 + \dots$$

no tiene en cuenta las interacciones (aunque extensiones suyas, sí, por supuesto).

Interacciones "mecánicas" en regresiones logísticas

En general, dos variables interaccionan cuando el efecto de una cambia al modificarse el nivel de la otra. Un caso particular (aunque notable) de interacción es el habitual en los modelos lineales, generalizados o no. En ellos, al introducir en el modelo términos del tipo x1 * x2, estamos indicando que el coeficiente de la segunda variable, $latex x_2$, es $latex \alpha + \beta x_1$. El efecto de un incremento de una unidad de $latex x_2$ depende entonces de $latex x_1$.