npl(nadaesgratis.es): el subproducto
Estos días me he entretenido repasando el estado del arte en NLP y otras tecnologías que hace un tiempo no toco y que, la verdad sea dicha, cambian —muy a mejor— una barbaridad. A tal fin, descargué al disco duro el texto de todas las entradas de un blog que leía en tiempos, nadaesgratis.es para mis pruebas. Son unas 4388 entradas, menos unas 30 que ya no existen, a lo largo de 13 años y que vienen a ocupar, en texto no comprimido, unos 33 MB, es decir, como unos treinta quijotes.
La entrada de hoy es un subproducto de mis ejercicios que, seguramente, no interesará a nadie. Se trata de cómo ha ido evolucionando en el tiempo la presencia de una serie de términos. De ellos, algunos me interesan y otros no (aunque hay gente a la que sí).
El resultado es el siguiente gráfico, donde muestro la evolución anual del porcentaje de entradas en los que se menciona cada término (ordenados estos por frecuencia absoluta):
