El g-test para tablas de contingencia
Hace unos días recibí una consulta de una vieja amiga lingüista. Ella trabaja en algo que creo que se llama cocolocación: el estudio de palabras que aparecen o que tiendan a aparecer juntas en textos. Digamos que es algo así como una correlación o una regla de asociación.
Los lingüistas están muy interesados en ese tipo de fenómenos. Tradicionalmente (cada gremio tiene su librillo) usan la información mutua. Pero, al final, lo que tienen es una tabla de contingencia: situaciones en que aparece una, la otra, ambas o ninguna de las palabras.
Y claro, tablas de contingencia 2x2 llevan a pensar en el test de la chi-cuadrado. ¿Podría utilizarse este?
Pues sí, claro. Solo que, según esto, la información mutua es proporcional al estadístico del g-test (o de razón de las verosimilitudes), del que el de la chi-cuadrado es no más una aproximación de la época precomputacional.
A propósito, el g-test puede aplicarse en R así (¿habrá alguna manera más?).
Confieso que no había oído hablar del g-test hasta el otro día. Y me consuela saber que lo mismo le pasaba a una serie de estadísticos con los que he tenido ocasión de compartir unos tinticos (cafés en Colombia) estos días pasados.