Deepseek

DeepSeek V3 llevaba publicado desde diciembre; R1, desde hacía más de una semana; pero solo fue el lunes 27 de enero cuando NVIDIA sufrió un descalabro y DeepSeek apareció repentinamente —hasta entonces no había rebasado los habituales foros friquis— en boca de todos (véase esto o esto, dos de las mejores piezas al respecto que he recopilado). Aparentemente, lo que hizo caer la bolsa fue el artículo The Short Case for Nvidia Stock, aparecido el sábado 25 de enero, en el que se hace un repaso detallado de las fortalezas pero, sobre todo, los peligros que acechan a NVIDIA. Algunas de las cuestiones que trata son:

GPT-4 se entrenó usando un clúster de 25k GPUs, Musk planea construir un centro de datos con 100k GPUs y Meta, uno de 350k. Sin embargo, parece que tecnologías emergentes como DiLoCo (de distributed low communication), permitirán entrenar esos modelos sin necesidad de grandes centros de cálculo. Una visión alternativa en la que se especula con la construcción de enormes centros de datos (con potencias eléctricas de hasta 5GW) puede verse aquí.

Deepseek

Unas cuantas noticias sobre LLMs

Unas cuantas noticias sobre LLMs