Argumentos para discutir sobre la inteligencia de los LLMs y cuatro asuntos más

2024-7-18 (Última modificación: 2025-4-6)

I. Visualización

Recopilo aquí cuatro enlaces vagamente hermanados por su relación con la visualización (y los LLMs):

Exploración interactiva de la arquitecturas de ciertos LLMs, aquí.
Una visualización/animación sobre cómo funcionan los transformers, aquí.
Aquí, en vídeo.
Y dos para tokens, este y este.

II. Inteligencia

Dos discusiones, esta y esta, sobre la inteligencia de los LLMs. De la primera rescato eso de que estamos moviendo constantemente la portería de eso que llamamos inteligencia. De la segunda, la vinculación de lo que hacen actualmente los LLMs con el pensar deprisa y despacio de Kahneman.

Y otro enlace más especulando con la posibilidad de que los LLMs no alcancen jamás el pensamiento lento. ¿Tocará volver a correr la portería de su sitio?

III. Aplicaciones

Una serie de aplicaciones de los LLMs:

Identificar cláusulas relevantes en contratos, aquí. Parte de su interés proviene del hecho de que no utilizan LLMs sino, más bien, NLP clásico vía SpaCy.
Crear tarjetas tipo Anki para repasar, aquí. Tengo montado algo parecido en mi servidor doméstico.
Algo parecido a los NotebookLM de Google, pero ahora de Anthropic, aquí.
Crear mensajes de commit en git, aquí

IV. Multimodalidad

El quid de la multimodalidad es construir embeddings alineados a partir de dos fuentes de datos modalmente diferentes (texto e imágenes). De ello se habla aquí y aquí.

Pero también habría que tener en cuenta esto, que nos advierte de cómo esos LLMs multimodales son ciegos a ciertas características de las imágenes que los humanos procesamos sin mayores complicaciones (como contar figuras geométricas, razonar sobre intersecciones de líneas, etc.).

V. Herramientas

Jina y, particularísimamente, su reader.
Este resumidor de vídeos.
Y uno también puede chatear con Friedman (el economista).