Llms

I.

Does GPT-2 Know Your Phone Number? discute dos asuntos distintos:

Métodos para identificar y estimar el número de textos literales que aprende un LLM.
Un análisis ya irrelevante de cómo afectaba a GPT-2.

Obviamente, quiero que los LLMs sepan recitar literalmente la primera frase del Quijote o la última de Cien años de soledad. Y tal vez no (¿seguro que no?) información confidencial sobre alguien. Entre ambos extremos, ¿dónde está la frontera?

Esta entrada bien podría llamarse también Mi primera aplicación de los LLMs en producción, siendo que ninguna versión falta a la verdad. También es cierto que no es la primera que construyo —pero sin que haya trascendido—; y que hay que cualificar la expresión en producción siendo que corre en mi servidor doméstico y para mis propios fines personales.

Contexto

Estoy industrializando mi proceso de lectura. Central en él es Pocket, una herramienta que permite archivar enlaces y acceder a ellos vía API.

Supongamos que el vector $u$ codifica cierta información A y el vector $v$ (de la misma dimensión), la información B. Hay quien sostiene que, entonces, el vector $u + v$ codifica simultáneamente A y B. En esta entrada voy a demostrar que la afirmación anterior es falsa. Luego, también, que es cierta. Terminaré explicando por qué el asunto es relevante.

Que es falsa es obvio: si $u$ y $v$ tienen dimensión 1, $u = 2$ y $v = 3$, a partir de la suma $u + v = 5$ es imposible recomponer los vectores originales.

Advertencia previa: esta entrada está plusquamcondicionada por la fecha de publicación. Quien aterrice en ella meses o años después, habrá de saber que lo que sigue únicamente tiene, tirando por alto, interés paleontológico.

Alguna vez, para mis experimentos, he alquilado una GPU —técnicamente, he contratado una instancia con GPUs—. Por razones que no vienen al caso, —y esto no es una recomendación de compra— mi proveedor habitual para estas cosas es OVH y los precios de las distintas opciones que ofrece pueden consultarse aquí.

I.

Cuando éramos críos e íbamos al colegio, todos hemos participado en conversaciones que discurrían más o menos así:

— Quiero ver el programa X.
— No puedes porque A, B y C.
— Pero Fulanito lo ve todos los días.
— No te fijes en lo que hace el más tonto; fíjate en lo que hace el más listo.

Los primeros buscadores de internet eran catastróficos. Un día apareció uno nuevo, Google, con una filosofía de madre de los setenta: fijarse en lo que hacía el más listo, no el más tonto. En el fondo, tecnicismos aparte, era en lo que se basaba el PageRank.

Me he entretenido dibujando

que representa gráficamente los grados de libertad de un LLM según va generando texto. Brevemente, he arrancado con

Never in the history of

y he dejado que mi LLM fuese construyendo

Never in the history of “The Bachelor” has a contestant been so hated by the viewing public.

The “Bachelor” franchise has had its share of villains, but the one who has

mientras registraba el vector de probabilidades en cada iteración, es decir, el vector que permite que el LLM elija, por ejemplo, villains en lugar de maples, vikings or frenchmen.

I.

Llevamos muchos años —muchos más de los que la mayoría de la gente piensa— detrás de mecanismos del tipo

$$f(h) = x$$

donde $h$ es una historia y $x$ es una continuación suya coherente con $h$. El texto

IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE

se construyó en 1948 usando un procedimiento básico: $h$ son dos caracteres y $x$ es otro caracter que se elige al azar de acuerdo cierta probabilidad condicional $P(x | h)$ que se estima a partir de frecuencias observadas en un determinado corpus.

Cortos (sobre LLMs)

I.

Mi última aplicación de los LLMs en producción

Contexto

Chocolatada informacional

¿Qué precio debería tener una hora de GPU?

Cuidado con ChatGPT (advertencia núm. 232923423)

I.

LLMs: grados de libertad en la generación de texto

LLMs en perspectiva

I.