Mamba vs "transformers" y cuatro asuntos más

2024-7-25 (Última modificación: 2025-4-6)

I. Lo que hemos aprendido

Una serie de tres entradas (táctica, estrategia y operaciones) sobre todo lo que hemos aprendido en el tiempo que llevamos desarrollando aplicaciones con LLMs.

II. Prompts

El modelo CO-STAR (contexto, objetivo, estilo, tono, audiencia y respuesta) me ha resultado muy útil para ciertas aplicaciones. Aunque, un día que no es el de hoy, será posible automatizar la búsqueda de prompts efectivos.

III. GPT-2

Cuando apareció, GPT-2 parecía realmente magia. Pero hoy se puede entrenar en hora y media por veinte dólares.

IV. Mamba

La casi totalidad de los LLMs están basados en transformers. Codestral Mamba usa una arquitectura distinta, Mamba, de la que seguro que seguiremos oyendo hablar en el futuro.

V. Groq

Aún no soy cliente —al menos, directo— pero sí fan de Groq.