Llms

Monosemanticidad: una introducción para despistados

I.

Hay gente que estudia el funcionamiento del cerebro. Una de las cosas que buscan es tratar de relacionar funciones cognitivas con regiones concretas. Para eso usan MRI, electrodos, etc. Yo qué sé. Un problema al que se enfrentan los investigadores es que estos procedimientos son o muy intrusivos, o tienen mucho ruido o ambos a la vez.

Hay gente que busca entender de manera similar los LLMs y responder a preguntas del tipo: ¿es posible identificar coeficientes (o grupos de coeficientes) relacionados con conceptos concretos? Además, examinar los coeficientes de un LLM es mucho más sencillo que estudiar sinapsis de lejos. De todos modos, no está claro, a priori, que tenga que ocurrir de esa manera, es decir, que tengan que existir regiones (no necesariamente físicamente colindantes) de los coeficientes que estén vinculadas unívocamente a un concepto determinado.

Estimaciones, intervalos de confianza y todas esas cosas... ¿qué significan realmente?

Hace unos años argumenté sobre estimaciones e intervalos de confianza alrededor de

Speed of light

que muestra estimaciones históricas de la velocidad de la luz. Pero

Lifetime neutron

(extraído de aquí) es todavía mucho más jugoso:

  • Por un lado, como en el otro caso, ¿qué significan realmente los intervalos de confianza?
  • Pero, además, las estimaciones se arraciman en el tiempo, y eso refleja… ¿dependencia de la tecnología disponible en el tiempo? ¿Estimaciones rebaño?

Muy instructivo sobre la verdad de las cosas.

Pero, ¿cuánto consumen los LLMs?

I.

En los años 50 y 60 se hicieron muchas predicciones acerca de cómo sería el mundo de hoy. Eran los años en que se popularizó la ciencia ficción y, además, el cambio de milenio estaba a la vuelta de la esquina.

Puede que alguien se sienta tentado de recopilar predicciones —y elucubraciones— sobre innovaciones técnicas realizadas en esa época y analizar su grado de acierto. Que sepa que llega tarde. Un análisis de ese tipo aparece en (el muy extravagante libro) Where Is My Flying Car?: A Memoir of Future Past. Si uno realizase un análisis discriminante con el objetivo de separar ambas clases —las tecnologías de las que hoy disponemos de las que siguen siendo una ensoñación— observaría que la variable más relevante es la intensidad del uso de la energía: no viajamos regularmente a la luna o nos desplazamos en coches voladores: eso consume mucha energía; sin embargo, realizamos videollamadas y tenemos a un click de distancia prácticamente toda la información disponible el mundo: energéticamente, es casi gratis. Dicen que una búsqueda en Google consume 0.3 Wh (o lo hacía en 2011); tendría que hacer más de 300 búsquedas en una hora para gastar en eso más de lo que quemo yo sentado mientras las realizo.