Cinco breves notas sobre LLMs

2024-10-1 (Última modificación: 2025-4-6)

I.

En The “it” in AI models is the dataset se sostiene algo que ya traíamos sabido: que los modelos (incluidos los LLMs) son resúmenes de los datos con los que se entrenan:

Así, cuando hablas de “Lambda”, “ChatGPT”, “Bard” o “Claude” no te refieres a los pesos del modelo sino al conjunto de entrenamiento.

II.

Hablar de hardware en el contexto de los LLMs parecería casi exclusivamente hablar de NVIDIA, pero no solo. El modelo es el siguiente:

Existen las CPUs, que son procesadores de propósito general y sobre las que no merece la pena explayarse.
Existe cierto tipo de operaciones que se repiten muy frecuentemente. Las CPUs podrían realizarlas, pero es posible diseñar dispositivos de hardware específicos más simples pero mucho más eficientes, las GPUs. Las GPUs fueron concebidas para otra cosa —la G de GPU se refiere a gráficos— pero dio la casualidad de que el tipo de operaciones que se realiza al entrenar y predecir usando modelos de IA son un subconjunto de las que las GPUs realizan con una pasmosa eficacia.
Sin embargo, las operaciones de subconjunto de las necesarias para realizar la inferencia —predicción— de LLMs pueden realizarse con dispositivos de cómputo todavía más simples que las GPUs.

De ahí Cerebras o Groq.

III.

En cuanto a herramientas:

Instructor facilita la obtención de información estructurada a partir de documentos.
Se habla bastante bien de Aider como herramienta de programación. Como era previsible, para conseguir resultados óptimos hace falta utilizarlo contra alguno de los mejores —y más caros— LLMs disponibles.

IV.

Como no podía ser de otra manera, la UE tiene una oficina de cosas IA de la que cabe esperar bien poco.

V.

El guión de esta entrevista con Nuria Oliver sobre la IA bien podría haberlo escrito un LLM: no caben más lugares comunes y recocidos de ideas extravagantes —y, frecuentemente, mutuamente contradictorias— en 17 minutos. Si esto es lo que opinan las listas, ¿qué será del q99 para abajo?