Un corpus de textos en español para NLP
Mañana doy clase de NLP en el máster de ciencia de datos de KSchool. Para lo que necesito un corpus decente. Los hay en inglés a tutiplén, pero las hordas de lingüistas hispanoparlantes que se pagan los vicios a costa de tajadas de mi IRPF han sido incapaces de colgar ninguno en español que pueda ubicar y reutilizar.
Necesito una colección de textos en español con ciertas características:
- Tener un cierto tamaño (¿unas cuantas centenas de ellos?)
- Que no sean demasiado grandes (¿unos cuantos párrafos?)
- Ser medianamente homogéneos.
- Estar bien escritos, sin faltas de ortografía, etc.
Así que he decidido poner en valor otra de esas onerosas reliquias de la cultura analógica y de letras que es el Museo Thyssen; en particular, las descripciones que constan en las fichas de los cuadros. De hecho, corriendo esto: