Más sobre paralelismos entre textos vía embeddings
Retomo el asunto de los paralelismos entre textos, que ya traté aquí, por el siguiente motivo:
- Estoy explorando las posibilides del RAG
- Para lo cual es necesario crear una base de datos documental con los fragmentos debidamente embebidos
- En particular, estoy probando lo que chroma da de sí.
Esencialmente, chroma consiste en:
- Una base de datos (SQLite, de hecho) donde se almacenan los fragmentos, sus metadatos y sus embeddings.
- Mecanismos para crear los embeddings.
- Mecanismos para buscar (por similitud de los embeddings) fragmentos relacionados con una petición de búsqueda.
Mis experimentos en español han sido catastróficos. La culpa, realmente, no parece ser de crhoma en sí sino de los algoritmos de embedding —se supone que específicos para el español— que he utilizado. Lo que sigue es un resumen de los resultados obtenidos en inglés, que parecen mucho mejores.