Ngramas

Advertencias sobre el uso de los n-gramas de Google

Dudaba en si dedicar la entrada a popularizar los n-gramas de Google en lugar de advertir sobre sus sesgos. Pero, habida cuenta de que lo primero sería llover sobre mojado (véase esto o esto), me he decantado por lo segundo.

El primer problema es el del reconocimiento de caracteres. Aunque la tecnología mejorará, aún se encuentra, p.e., cami6n en lugar de camión.

El fundamental, no obstante, es que los libros aparecen una única vez independientemente de su popularidad. Esto plantea problemas para medir el impacto cultural de determinados términos: su presencia o ausencia en los n-gramas puede no encontrar correlato en la calle.

¿Importa más la causalidad hoy en día?

Según este artículo, que explora la proporción de palabras relacionadas con la causalidad a lo largo de los dos últimos siglos, parece que sí (para el inglés).

Hice alguna búsqueda muy superficial en los n-gramas de Google y en español estoy obteniendo, precisamente, la tendencia contraria.

A ver si consigo el texto completo del artículo y, si encuentro un momento, trato de replicar lo que pueda. Y si alguien se me adelanta y me ahorra el trabajo, ¡tanto mejor!