Llms

El prompt injecting es una técnica para robar información a un agente. Si un agente tiene, por ejemplo, acceso al correo electrónico, se le puede enviar un mensaje dándole instrucciones que alteren su comportamiento. Es un problema bien conocido de los agentes y ahora en Defeating Prompt Injections by Design se describe una solución basada en dos agentes, uno de los cuales tiene como función supervisar las acciones del otro.

Como no puede ser de otra manera, el MCP plantea grandes problemas de seguridad.

Simon Willison invita aquí a pensar mejores prompts para resumir texto —uno de los principales usos de los LLMs— de manera más efectiva.

Y este otro artículo abunda sobre el tema: cómo construir mejores prompts. El problema que tiene es el de siempre: solo puedes entretenerte en pulir los prompts cuando esperas obtener mucho valor de la respuesta. Para el uso rápido y cotidiano, continuaremos con nuestras heurísticas frugales.

Dos usuarios avanzados de los LLMs desvelan sus algunos trucos:

He implementado las entradas relacionadas en el blog. Dos entradas están relacionadas cuando el producto escalar de sus embeddings es alto.

Así que en primer lugar he asociado a cada entrada un embedding. Las entradas son ficheros de markdown con un preámbulo en yaml. Los embeddings no están creados directamente sobre el texto bruto de la entrada sino sobre la entrada y algunos de los elementos, no todos, del preámbulo.

Todo el mundo lleva días hablando del MCP. Creo que ni merece la pena decir qué cosa es.

MCP es un mecanismo para empoderar agentes. Para los primeros que creé utilié CrewAI pero he migrado a LangChain porque:

A CrewAI le encantan las dependencias tochas: para cualquier trivialidad crea entornos de varios GB.
CrewAI está diseñado para un tipo de agentes muy concreto —agentes a los que se delega enteramente el control del flujo del proceso— que no son exactamente los que más me interesan ahora –que suelen incluir un elemento de control por mi parte—.

Aunque todo el mundo habla de LangChain y CrewAI, hay algunas innovaciones interesantes, entre las cuales:

Un lenguaje de programación es un lenguaje que media entre el que nos es familiar a los humanos y el que reconocen las computadoras. Los lenguajes de alto nivel nos resultan más cómodos; los de bajo nivel, más crípticos. Todos conocemos, pienso, el trade-off.

Ahora todo el mundo programa en Python. Pero los hay que lo hacen de una manera rara:

Hay un nuevo tipo de programaciónn que llamo [Andrej Karpathy] “programación de vibraciones”, en la que te entregas por completo a las vibraciones, adoptas exponenciales y te olvidas de que el código existe. Es posible porque los LLM (por ejemplo, Cursor Composer con Sonnet) se están volviendo demasiado buenos. Además, solo hablo con Composer con SuperWhisper, por lo que apenas toco el teclado. Pido las cosas más tontas como “reducir el relleno en la barra lateral a la mitad” porque soy demasiado vago para buscarlo. “Acepto todo” siempre, ya no leo los diffs. Cuando recibo mensajes de error, simplemente los copio y pego sin comentarios; generalmente, eso lo soluciona. El código crece más allá de mi comprensión habitual, tendría que leerlo realmente durante un tiempo. A veces, los LLM no pueden corregir un error, así que simplemente busco alternativas o pido cambios aleatorios hasta que desaparece. No está tan mal para proyectos de fin de semana intrascendentes, pero sigue siendo bastante divertido. Estoy desarrollando un proyecto o una aplicación web, pero en realidad no es programación: solo veo cosas, digo cosas, ejecuto cosas y copio y pego cosas, y en general funciona.

Las dos noticias del siglo de la semana en el mundo de los LLMs:

Un análisis en profundidad (aunque presumiblemente prematuro) sobre el nuevo Grok 3.
Sobre el Deep Research de Perplexity.

Aquí, The Economist argumenta que los LLMs no nos igualarán sino lo contrario, que contribuirá a separar aún más el desempeño socioeconómico de los individuos en función de su capacidades cognitivas (separate the best from the rest, en su formulación original).

Mandar una petición a un LLM equivale a usar un ordenador (bastante potente) un ratico. El consumo de electricidad no puede ser tan alto. Tiene que ser infinitamente inferior al de actividades cotidianas que involucren calentar cosas, por ejemplo. Pero el que quiera los números concretos, puede echarle un vistazo a Individual AI use is not bad for the environment.

LLMs a los que se pregunta por una variante del tres en raya, consistente en rotar el tablero 90 grados. Sus respuestas, todas desatinadas —de otra manera, ¿se habrían publicado los resultados?—, aquí.

DeepSeek V3 llevaba publicado desde diciembre; R1, desde hacía más de una semana; pero solo fue el lunes 27 de enero cuando NVDIA sufrió un descalabro y DeepSeek apareció repentinamente —hasta entonces no había rebasado los habituales foros friquis— en boca de todos (véase esto o esto, dos de las mejoras piezas al respecto que he recopilado). Aparentemente, lo que hizo caer la bolsa fue el artículo The Short Case for Nvidia Stock parecido el sábado 25 de enero en el que se hace un repaso detallado de las fortalezas pero, sobre todo, los peligros que acechan a NVIDIA. Algunas de las cuestiones que trata son:

ALIA es el LLM público español. Hasta hace no mucho se sabía poco de él. Durante meses, solo hubo dos clústers de noticias:

Uno, alededor del 25 de febrero de 2024, coincidiendo con el anuncio de la cosa (véase, por ejemplo, esto o esto).
Otro, alrededor de abril de 2024, cuando se anunció un acuerdo con IBM para el desarrollo de dicho modelo (veáse esto o esto).En esa época ya tenía nombre, ALIA, y se lo esperaba para después del verano (véase esto).

Después hubo una especie de apagón informativo —acabó el verano y yo no paraba de pulsar F5 en Google en vano— solo rasgado por una críptica nota de Alberto Palomo, aquél que fue ungido tiempo atrás como el CDO del Reino de España, que en una entrevista en El Confidencial a principios de diciembre decía de pasada que:

GPT-4 se entrenó usando un clúster de 25k GPUs, Musk planea construir un centro de datos con 100k GPUs y Meta, uno de 350k. Sin embargo, parece que tecnologías emergentes como DiLoCo (de distributed low communication), permitirá entrenar esos modelos sin necesidad de grandes centros de cálculo. Una visión alternativa en la que se especula con la construcción de enormes centros de datos (con potencias eléctricas de hasta de 5GW) puede verse aquí.

LLMs para la predicción de series temporales y algunos asuntos más

Una serie de artículos sobre aplicaciones y trucos acerca del uso de LLMs

Ahora el blog tiene una lista de entradas relacionadas construida usando LLMs

Una nueva selección de novedades relevantes del mundo de los LLMs

¿Acabaremos programando todos en ensamblador?

Modelos gratuitos en OpenRouter y algunos asuntos más

Computación cuántica en Barcelona (al lado de ALIA) y algunos asuntos más

Unas cuantas noticias sobre LLMs

ALIA: los enlaces

Unas cuantas noticias sobre LLMs