Unas cuantas aplicaciones de los LLMs

En la entrada de hoy recopilo unas cuantas aplicaciones de los LLMs.

Enlazo una entrevista a Tyler Cowen discutiendo cómo usa los GPTs. Según extrae NotebookLM de su transcripción, sus principales casos de uso son:

  • Investigar hechos históricos oscuros.
  • Traducir cualquier cosa.
  • Obtener información sobre menús en restaurantes el extranjero.
  • Identifciar plantas y pájaros.
  • Comprender temas complejos y generar preguntas para entrevistas.
  • Obtener información a partir de los diarios personales.
  • Entender las necesidades de su perro.

Aquí, una charla de Simon Willison sobre LLMs en general y sus aplicaciones en particular.

Renta básica universal y revisión de la literatura

A mediados del 2020 escribí de pasada sobre un proyecto piloto para medir los efectos de la renta básica universal en BCN. Hoy, por motivos que no te interesan, me ha dado por volver a revisar los resultados del estudio y he escrito en Google “renta básica universal barcelona”.

Me ha sorprendido que la casi totalidad de los resultados de la búsqueda fuesen a páginas muy recientes, todas de los últimos 12 meses. Y que el primero fuese este, el enlace a un PDF del gobierno regional de Cataluña titulado Informe de diseño Plan piloto de la renta básica universal.

Mamba vs "transformers" y cuatro asuntos más

I. Lo que hemos aprendido

Una serie de tres entradas (táctica, estrategia y operaciones) sobre todo lo que hemos aprendido en el tiempo que llevamos desarrollando aplicaciones con LLMs.

II. Prompts

El modelo CO-STAR (contexto, objetivo, estilo, tono, audiencia y respuesta) me ha resultado muy útil para ciertas aplicaciones. Aunque, un día que no es el de hoy, será posible automatizar la búsqueda de prompts efectivos.

III. GPT-2

Cuando apareció, GPT-2 parecía realmente magia. Pero hoy se puede entrenar en hora y media por veinte dólares.

El Elo: prácticamente una regresión logística entrenada en línea

Los jugadores $A$ y $B$ se enfrentan al ajedrez. El Elo de A y B son dos números $E_A$ y $E_B$ tales que la probabilidad de que $A$ gane la partida a $B$ es

$$P(A-B) = \frac{1}{1 + 10^{(E_B - E_A) / 400}} = \frac{1}{1 + \exp(-k(E_A - E_B))}$$

para un determinado valor de $k$ que no me voy a molestar en calcular.

Omitiendo la complicación de que las partidas de ajedrez pueden terminar en tablas, podríamos entender el Elo como —prácticamente— los coeficientes de una regresión logística ajustada sobre unos datos, un histórico de partidas de ajedrez, con una matriz de diseño muy particular:

Argumentos para discutir sobre la inteligencia de los LLMs y cuatro asuntos más

I. Visualización

Recopilo aquí cuatro enlaces vagamente hermanados por su relación con la visualización (y los LLMs):

  • Exploración interaectiva de la arquitecturas de ciertos LLMs, aquí.
  • Una visualización/animación sobre cómo funcionan los transformers, aquí.
  • Aquí, en vídeo.
  • Y dos para tokens, este y este.

II. Inteligencia

Dos discusiones, esta y esta, sobre la inteligencia de los LLMs. De la primera rescato eso de que estamos moviendo constantemente la portería de eso que llamamos inteligencia. De la segunda, la vinculación de lo que hacen actualmente los LLMs con el pensar deprisa y despacio de Kahneman.

Monosemanticidad: una introducción para despistados

I.

Hay gente que estudia el funcionamiento del cerebro. Una de las cosas que buscan es tratar de relacionar funciones cognitivas con regiones concretas. Para eso usan MRI, electrodos, etc. Yo qué sé. Un problema al que se enfrentan los investigadores es que estos procedimientos son o muy intrusivos, o tienen mucho ruido o ambos a la vez.

Hay gente que busca entender de manera similar los LLMs y responder a preguntas del tipo: ¿es posible identificar coeficientes (o grupos de coeficientes) relacionados con conceptos concretos? Además, examinar los coeficientes de un LLM es mucho más sencillo que estudiar sinapsis de lejos. De todos modos, no está claro, a priori, que tenga que ocurrir de esa manera, es decir, que tengan que existir regiones (no necesariamente físicamente colindantes) de los coeficientes que estén vinculadas unívocamente a un concepto determinado.

Algunos apuntes sobre tecnología moderna y no tan moderna

I.

Las X han cumplido 40 años (y urge jubilarlas).

II.

Escribes código en el panel de la izquierda, eliges el compilador y ves el código generado (típicamente, ensamblador) en el panel de la derecha de esto.

III.

Alguien hizo ingeniería inversa de Github Copilot y escribió esto.

IV.

Esta aplicación convierte PDFs en podcasts. Muy alineada con las tendencias de estos tiempos que vivimos.

V.

Aquí no solo se estima el consumo de energía que realiza un LLM al generar texto sino que también se compara con el del sujeto al que reemplazaría. Eso sí, no menciona a Jevons por ninguna parte.

Otro índice de sorpresa y algún que otro asunto más

I.

Lo que hemos aprendido de lanzar al aire monedas 350757 veces. Del resumen:

  • Hay cierta tendencia (~51%) a que la moneda caiga en el mismo sentido en que estaba al ser lanzada (i.e., que salga cara si al lanzar la moneda, la cara estaba hacia arriba).
  • Hay mucha variación interpersonal.
  • El sesgo decrece conforme la misma persona lanza las monedas más y más veces.

II.

Si alguien os pregunta de algún caso en el que se explica una cosa oscura de manera todavía más oscura, mostradles Desorden y predicción en series trimestrales.

Positron

R

El 1 de marzo de 2011 escribí esto anunciando un nuevo IDE multiplataforma (¡qué falta hacía!) para R. Trece años más tarde, la misma empresa nos provee de otro bien público, Positron.

Aún no he podido instalar la beta pública en mi Archlinux por un conflicto con VS Code —sí, Positron parece ser un VS Code tuneado—, pero prometo una captura de pantalla una vez se arregle el asunto.

En tanto, ¿qué espero de Positron? No otra cosa que la facilidad que ofrece RStudio para el análisis informal e interactivo de datos. Ni los IDEs habituales ni los notebooks ofrecen un mecanismo ágil para la exploración: ambos están enfocados en ofrecer un producto final cerrado: un software que funcione en el primer caso, un documento en el segundo. Si Positron nos permite hacer con Python lo que RStudio con R —y lo que he visto por ahí apunta en esa dirección: Positron parece una reconstrucción de RStudio sobre una plataforma distinta—, el mundo será un poquito más bello.

Descuentos para RCTs algunos asuntos más

I.

Si algo aprendemos en Why any estimate of the cost of climate change will be flawed es cómo los resultados de los modelos dependen críticamente de las prioris (de todo tipo, incluso aquellas entendidas en sentido amplio que se aplican en análisis no necesariamente bayesianos).

II.

El artículo reseñado aquí me ha recordado esto que escribí hace tiempo. Y, a su vez, me ha permitido constatar que no tengo ninguna entrada específica sobre uno de mis resultados empíricos favoritos: el llamado teorema de la imposibilidad de la Super Bowl.

¿Por qué es "tan fácil" la optimización en altas dimensiones?

Esta es la función de Rosenbrock, también conocida como función plátano o —en algunos contextos— como el coco:

Es una de esas funciones contra la que tienen que demostrar su valía los algoritmos de optimización que los matemáticos discurren por ahí. La función ilustra uno de los problemas habituales de la optimización: las variables se confabulan para que las ideas simples no funcionen: los gradientes no apuntan hacia el mínimo, este se encuentra en un valle estrecho, etc. Y que conste que las he visto peores en la práctica.

"El problema de la academia" y cuatro asuntos más

I.

Aquí dice lo que con mi traducción suena así:

El problema de la academia no es el plagiarismo. En economía, un secreto que la academia guarda celosamente es que casi toda la investigación es inválida o inútil por varios motivos.

¿Qué hacer? No leer.

II.

¿Y en estadística? Aquí se cita la frase

Gran parte de la estadística del siglo XX es una pérdida de tiempo consistente en calcular respuestas precisas a preguntas irrelevantes.

Una lectura muy esclarecedora sobre la prelación entre ciencia e ingeniería

Hay gente que discute a veces sobre cuál es el carro y cuál es el burro en el binomio ciencia-ingeniería. Mi opinión al respecto es irrelevante porque no va a cambiar nunca nada en ninguna parte. Pero aquél que quiera asentar la suya, debería leer con atención y desde esa perspectiva Will We Ever Get Fusion Power?.

Lectura de la que extraigo (y, por el camino, traduzco):

El entusiasmo por los tokamaks coincidió con un alejamiento de la teoría y un retorno a la investigación basada en el “constrúyelo y mira a ver qué aprendes”. Nadie sabía realmente por qué los tokamaks lograban resultados tan impresionantes. Los soviéticos no progresaron desarrollando un fundamento teórico sólido, sino simplemente siguiendo lo que parecía funcionar sin entender por qué. En lugar de un modelo detallado del comportamiento subyacente del plasma, el progreso en la fusión comenzó a producirse mediante la aplicación de “leyes de escala”, relaciones empíricas entre el tamaño y la forma de un tokamak y varias medidas de rendimiento. Los tokamaks más grandes funcionaban mejor: cuanto mayor el tokamak, más grande era la nube de plasma y más tiempo tardaba una partícula de esa nube en escapar de la zona de contención. De duplicarse el radio del tokamak, el tiempo de confinamiento podía cuatriplicarse. Con tantos tokamaks de diferentes configuraciones en construcción, los contornos de estas leyes de escala iban a poder explorarse en profundidad: cómo variaban con la forma, la fuerza del campo magnético y otros innumerables variables.