Mamba vs "transformers" y cuatro asuntos más
I. Lo que hemos aprendido
Una serie de tres entradas (táctica, estrategia y operaciones) sobre todo lo que hemos aprendido en el tiempo que llevamos desarrollando aplicaciones con LLMs.
II. Prompts
El modelo CO-STAR (contexto, objetivo, estilo, tono, audiencia y respuesta) me ha resultado muy útil para ciertas aplicaciones. Aunque, un día que no es el de hoy, será posible automatizar la búsqueda de prompts efectivos.
III. GPT-2
Cuando apareció, GPT-2 parecía realmente magia. Pero hoy se puede entrenar en hora y media por veinte dólares.
IV. Mamba
La casi totalidad de los LLMs están basados en transformers. Codestral Mamba usa una arquitectura distinta, Mamba, de la que seguro que seguiremos oyendo hablar en el futuro.
V. Groq
Aún no soy cliente —al menos, directo— pero sí fan de Groq.