Unas cuantas noticias sobre LLMs
GPT-4 se entrenó usando un clúster de 25k GPUs, Musk planea construir un centro de datos con 100k GPUs y Meta, uno de 350k. Sin embargo, parece que tecnologías emergentes como DiLoCo (de distributed low communication), permitirá entrenar esos modelos sin necesidad de grandes centros de cálculo. Una visión alternativa en la que se especula con la construcción de enormes centros de datos (con potencias eléctricas de hasta de 5GW) puede verse aquí.
Por otro lado, el LLM de moda, DeepSeek-V3 (véase esto, esto o esto), se entrenó en un clúster de unas 2k GPUs durante unos dos meses, aproximadamente un orden de magnitud de cálculo menos que modelos ya superados, como Llama-3.1-405B. Además, el precio de la inferencia es imbatible.
Supongo que esas son buenas noticias para el LLM público español, ALIA, que se entrena en un frijolín de 4k GPUs. ALIA nos va a dar muchas satisfacciones, casi seguro.
Pero no hay que fijarse en lo malo sino en lo bueno.
En OpenAI’s latest model will change the economics of software se discuten los modelos que razonan (como o3 de OpenAI) desde la perspectiva sus costes operativos. Con los primeros GPTs aprendimos que las habilidades que iban adquiriendo estos modelos eran función creciente del tamaño del conjunto de entrenamiento; ahora, da la impresión de que la sutiliza del razonamiento de estos nuevos modelos es función creciente del tiempo que se les deje pensar (y de la energía que consumen). Eso, de alguna manera, podría estar condicionando la estructura del mercado y el sistema de precios para estos nuevos modelos.
Aunque da la impresión de que esos costes podrían decaer rápidamente. Una serie de modelos chinos como Qwen/QVQ-72B, su versión multimodal, Qwen2-VL-72B y, sobre todo, el increíble DeepSeek-R1 ponen en cuestión que los modelos que razonan tengan que ser necesariamente tan caros.