Deepseek

Unas cuantas noticias sobre LLMs

GPT-4 se entrenó usando un clúster de 25k GPUs, Musk planea construir un centro de datos con 100k GPUs y Meta, uno de 350k. Sin embargo, parece que tecnologías emergentes como DiLoCo (de distributed low communication), permitirá entrenar esos modelos sin necesidad de grandes centros de cálculo. Una visión alternativa en la que se especula con la construcción de enormes centros de datos (con potencias eléctricas de hasta de 5GW) puede verse aquí.