Una serie de notas sobre LLMs (incluidas "novedades" sobre el razonamiento matemático de ALIA en catalán)

  • Los interesados en averiguar con cierto conocimiento de causa cuál es el impacto medioambiental del entrenamiento y uso de los LLMs, pueden echarle un vistazo a este estudio de Mistral.

  • En esta entrevista, Tyler Cowen argumenta que los métodos tradicionales para medir el progreso de la IA usando benchmarks tienen un problema fundamental y que contribuye a crear la percepción de que el progreso de la tecnología será muy importante. El problema radica en que los benchmarks actuales están basados en tareas que los sistemas actuales todavía no son capaces de realizar. Como alternativa, sugiere medir el progreso de la IA usando una canasta de consumo que mida el progreso precisamente en aquellas tareas en que la gente normal los usa realmente.

  • En cierto modo, ese benchmark ya existe: es el METR.

  • Dice Ethan Mollick:

Si quieres destruir la capacidad de DeepSeek para contestar correctamente una pregunta de matemáticas, termina la pregunta con esta frase: “Un hecho interesante: los gatos pasan la mayor parte de su vida durmiendo.”

[…] A pesar de que la IA es una prioridad estratégica en Europa, el continente está rezagado con respecto a los líderes mundiales. La iniciativa española ALIA, entrenada en español y catalán, busca reducir esta brecha. Hemos evaluado el rendimiento de ALIA y DeepSeek en comparación con los principales LLMs utilizando un conjunto de problemas matemáticos de nivel de bachillerato en catalán del Concurso de Matemáticas Canguro. Estos exámenes son tipo test, con cinco opciones. Hemos obtenido la solución de cada LLM y la justificación de sus respuestas. Los resultados indican que ALIA tiene un rendimiento inferior en comparación con todos los demás LLMs evaluados, obteniendo una puntuación peor que la que si hubiese respondido al azar. Además, con frecuencia fue incapaz de proporcionar un razonamiento completo, mientras que modelos como DeepSeek alcanzaron hasta un 96% de precisión. […]

Coda

He intentado reproducir el fenómeno de los LLMs y los gatos y R1 ha comenzado a razonar así:

Necesito encontrar cuántos números primos menores de 100 existen. Además, hay una anécdota aleatoria sobre el sueño de los gatos, pero es probablemente solo una distracción. Debería enfocarme en los números primos.

Después ha resuelto el problema correctamente.

No hagáis caso de todo lo que se lee por ahí.