Corpus

La viejunísima escuela

Leí esto. Me asaltó la pregunta obvia, la manifiesta, la fundamental, la sine qua non.

Si queréis, echadle un vistazo y podréis descubrirla por vosotros mismos. Y para evitar el spoiler de un golpe de vista involutario al párrafo siguiente, intercalo la foto de un lindo gatito.

Pues sí, el señor Escohotado afirma que:

En el año dos mil tres un profesor de Harvard, McCormick, un medievalista, digitalizó, escaneó todos los documentos medievales del siglo VI al siglo XIII, los pasó por un programa adecuado y les preguntó cosas tan sencillas como ¿cuántas veces aparece la palabra “negotiator”?

Un corpus de textos en español para NLP

Mañana doy clase de NLP en el máster de ciencia de datos de KSchool. Para lo que necesito un corpus decente. Los hay en inglés a tutiplén, pero las hordas de lingüistas hispanoparlantes que se pagan los vicios a costa de tajadas de mi IRPF han sido incapaces de colgar ninguno en español que pueda ubicar y reutilizar.

Necesito una colección de textos en español con ciertas características:

  • Tener un cierto tamaño (¿unas cuantas centenas de ellos?)
  • Que no sean demasiado grandes (¿unos cuantos párrafos?)
  • Ser medianamente homogéneos.
  • Estar bien escritos, sin faltas de ortografía, etc.

Así que he decidido poner en valor otra de esas onerosas reliquias de la cultura analógica y de letras que es el Museo Thyssen; en particular, las descripciones que constan en las fichas de los cuadros. De hecho, corriendo esto: