Más cortos sobre LLMs

I.

Aquí se explica cómo es una mezcla de expertos, la arquitectura detrás de LLMs como Mixtral (el LLM que más uso, sobre todo en APIs). Curiosamente, la arquitectura está basada en ideas de este artículo… ¡de 1991!

II.

Aquí se tratan los LMMs (donde la L de language se ha reemplazado por la M de multimodal). Se dice:

A muy alto nivel, un sistema multimodal consta de los siguientes componentes:

  1. Un codificador para cada modo de datos que genere los embeddings correspondientes.
  2. Un procedimiento para alinear los embeddings de los diferentes modos en el mismo espacio.
  3. [Solo para modelos generativos] Un modelo de lenguaje para generar respuestas textuales. Como las entradas pueden contener tanto texto como elementos visuales, hace falta desarrollar técnicas para condicionar el modelo de lenguaje no solo al texto sino también a los elementos visuales.

El segundo punto me recuerda a lo de aquellos ratones que acordaron ponerle un cascabel al gato.

III.

Generalmente, pasan cosas como

pero si lees lo que pone aquí verás cómo es posible conseguir

añadiendo sufijos mágicos.

IV.

Se ve que LMQL es una cosa que permite escribir consultas del tipo

beam(n=3)
    "Q: Say 'Hello, {name}!'"
    "A: [RESPONSE]"
from "openai/text-davinci-003"
where len(TOKENS(RESPONSE)) < 20

V.

La segunda aplicación más obvia (y que más se me ha resistido cuando la he probado en casa), de los LLMs: crear un LLM que razone sobre tus propios documentos.