LLMs: ajedrez, poesía, "ciencia normal", "prompts" y "RAG"
Poesía
Hace poco se publicó un artículo en el que se estudiaban los resultados de un estudio ciego en el que a una serie de sujetos se les presentaban poemas escritos sea por humanos o por LLMs y se les preguntaba su opinión al respecto. No he leído el artículo, pero aquí están las opiniones no enteramente coincidentes al respecto de Tyler Cowen y de Jessica Hullman.
Ajedrez
Uno de los resultados más sorprendentes del prehistórico GPT-2 es que había aprendido a jugar al ajedrez sin que nadie le hubiese enseñado explícitamente. Cuatro años después, Dynomight ha retomado el asunto y ha escrito esto y esto.
Ciencia normal
En este vídeo se discute el asunto de si los LLMs podrán algún día automatizar el proceso de investigación científica enteramente.
Se entiende mejor recurriendo a las categorías de revolución científica y de ciencia normal. Tras una revolución científica comienza un periodo de ciencia normal en el que la producción científica sigue un patrón más o menos estandarizado. Por ejemplo, en ciertas disciplinas, dada una hipótesis, calcular el poder estadístico de una prueba hipotética, seleccionar una población, asignarla a grupos de tratamiento y control, aplicar una prueba estadística de libro sobre los resultados obtenidos e interpretarla según unas plantillas preestablecidas. Es un proceso en su mayor parte estandarizado que, ciertamente, podría delegarse en algún momento a una IA. Así visto, efectivamente, una parte sustancial de lo que actualmente se publica podría llegar a delegarse en ese tipo de herramientas.
Prompts
Es probable que esto del prompt engineering sea flor de un día y que en un futuro próximo todo lo que hayamos aprendido al respecto se convierta en papel mojado. No obstante, aún sigue siendo importante y aquí hay una serie de recursos útiles sobre técnicas que aún funcionan para mejorar los prompts (todos ellos relativos a Claude, que es ha convertido en mi LLM por defecto):
- Un tutorial interacivo de Anthropicl
- Consejos específicos para “prompts” con modelos de contexto muy grande
- Los “prompts” de sistema de distintos modelos de Anthropic
RAG
Para los que han pasado los últimos meses escondidos en una cueva, el RAG consiste en una técnica para enfocar los resultados de un LLM en un determinado corpus de interés. Al hacer una petición a un sistema RAG, antes de que el LLM genere una respuesta, un buscado selecciona dentro del corpus de interés textos relacionados con la cuestión y los inyecta en el prompt. De esta manera el LLM puede construir una respuesta fundada en información pertinente y cierta existente en el corpus —y sobre la que tal vez no ha sido entrenado—, se mitiga el problema de las alucinaciones, etc.
Aquí, una serie de artículos pertinentes al respecto:
- Shortwave, un ejemplo de uso del RAG cuando el corpus son tus propios correos electrónicos.
- Una revisión de técnicas avanzadas de RAG
- Lo que nos llega sobre el RAG está sesgado a favor de las experiencias exitosas. Tengo la sospecha de que muchos proyectos no llegan a ofrecer los resultados esperados. Mi propia experiencia me induce a pensar que es que llegar a crear un sistema realmente eficiente es más complicado de lo que nos anuncian por ahí. Por eso creo que se agradece leer cosas como esta.
- Abundando en el punto anterior, aquí se trata un tema fundamental y que a a menudo se soslaya: que una pieza esencial en un RAG es un motor de búsqueda que funcione bien.