npl(nadaesgratis.es): el subproducto
Estos días me he entretenido repasando el estado del arte en NLP y otras tecnologías que hace un tiempo no toco y que, la verdad sea dicha, cambian —muy a mejor— una barbaridad. A tal fin, descargué al disco duro el texto de todas las entradas de un blog que leía en tiempos, nadaesgratis.es —unas 4388 entradas, menos unas 30 que ya no existen, a lo largo de 13 años y que vienen a ocupar, en texto no comprimido, como treinta quijotes, unos 33 MB— para mis pruebas.
La entrada de hoy es un subproducto de mis ejercicios que, seguramente, no interese a nadie. Se trata de cómo ha ido evolucionando en el tiempo en dicho blog la presencia de una serie de términos algunos de los cuales me interesan y otros no (aunque a algunos sí).
El resultado es este, donde muestro para cada término —ordenados decrecientemente por frecuencia—, el porcentaje de entradas en el año en cuestión en el que se mencionó el asunto: