Argumentos para discutir sobre la inteligencia de los LLMs y cuatro asuntos más
I. Visualización
Recopilo aquí cuatro enlaces vagamente hermanados por su relación con la visualización (y los LLMs):
- Exploración interaectiva de la arquitecturas de ciertos LLMs, aquí.
- Una visualización/animación sobre cómo funcionan los transformers, aquí.
- Aquí, en vídeo.
- Y dos para tokens, este y este.
II. Inteligencia
Dos discusiones, esta y esta, sobre la inteligencia de los LLMs. De la primera rescato eso de que estamos moviendo constantemente la portería de eso que llamamos inteligencia. De la segunda, la vinculación de lo que hacen actualmente los LLMs con el pensar deprisa y despacio de Kahneman.
Y otro enlace más especulando con la posibilidad de que los LLMs no alcancen jamás el pensamiento lento. ¿Tocará volver a correr la portería de su sitio?
III. Aplicaciones
Una serie de aplicaciones de los LLMs:
- Identificar cláusulas relevantes en contratos, aquí. Parte de su interés proviene del hecho de que no utilizan LLMs sino, más bien, NLP clásico vía SpaCy.
- Crear tarjetas tipo Anki para repasar, aquí. Tengo montado algo parecido en mi servidor doméstico.
- Algo parecido a los NotebookLM de Google, pero ahora de Anthropic, aquí.
- Crear mensajes de commit en git, aquí
IV. Multimodalidad
El quid de la multimodalidad es construir embeddings alineados a partir de dos fuentes de datos modalmente diferentes (texto e imágenes). De ello se habla aquí y aquí.
Pero también habría que tener en cuenta esto, que nos advierte de cómo esos LLMs multimodales son ciegos a ciertas características de las imágenes que los humanos procesamos sin mayores complicaciones (como contar figuras geométricas, razonar sobre intersecciones de líneas, etc.).
V. Herramientas
- Jina y, particularísimamente, su reader.
- Este resumidor de vídeos.
- Y uno también puede chatear con Friedman (el economista).