Monosemanticidad: una introducción para despistados

I.

Hay gente que estudia el funcionamiento del cerebro. Una de las cosas que buscan es tratar de relacionar funciones cognitivas con regiones concretas. Para eso usan MRI, electrodos, etc. Yo qué sé. Un problema al que se enfrentan los investigadores es que estos procedimientos son o muy intrusivos, o tienen mucho ruido o ambos a la vez.

Hay gente que busca entender de manera similar los LLMs y responder a preguntas del tipo: ¿es posible identificar coeficientes (o grupos de coeficientes) relacionados con conceptos concretos? Además, examinar los coeficientes de un LLM es mucho más sencillo que estudiar sinapsis de lejos. De todos modos, no está claro, a priori, que tenga que ocurrir de esa manera, es decir, que tengan que existir regiones (no necesariamente físicamente colindantes) de los coeficientes que estén vinculadas unívocamente a un concepto determinado.

II.

Pero parece que hay resultados que apuntan en esa dirección. Están publicados por ahí asociados a la etiqueta nonosemanticidad.

El concepto se popularizó tanto como para llegar a mis oídos tras la publicación de Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, aunque construye sobre trabajo previo como Towards Monosemanticity: Decomposing Language Models With Dictionary Learning (explicado breve y accesiblemente aquí) o Sparse Autoencoders Find Highly Interpretable Directions in Language Models.

Esos artículos también explican por qué hace unas semanas todo el mundo hablaba del Golden Bridge. Parece, además, que esos patrones no emergen solo en los LLMs de Anthropic, sino también en GPT-4.

III.

Y no solo hemos podido indentificar esos patrones sino que es posible operar sobre ellos:

  • Quien haya examinado los enlaces anteriores habrá encontrado noticias de cómo una de las primeras aplicaciones de la monosemanticidad fue construir un LLM derivado de Claude que no paraba de hablar del Golden Gate, viniese a o no a cuento.
  • En Representation Engineering Mistral-7B an Acid Trip se describe cómo —simplificándolo todo muchísimo— identificar y sumar un vector a los coeficientes de un LLM para forzarlo a operar de una manera determinada.
  • Y qué duda cabe que muchas otras que existe o existirán. Al fin y al cabo, uno de los objetivos de la educación consiste en fomentar las tendencias neuróticas de cada generación; ahora disponemos de una herramienta para, también, inyectar directamente neuroticismo en estas seudointeligencias artificiales.