Llms | Carlos J. Gil Bellosta

Una serie de notas sobre el siempre fértil campo de la mala ciencia

Dinomight sobre las miserias del peer review. Incluye un par de párrafos buenísimos: ¿Pero qué pasa cuando alguien descubre un error en un artículo ya publicado? Sucede todo el tiempo, pero los artículos casi nunca se retiran o corrigen. Nadie hace mucho aspaviento porque, de nuevo, [los autores] son colegas. ¿Por qué crearse enemigos? Incluso si publican un resultado que corrige luego los errores del primer artículo, la gente tiende a medir tanto sus palabras que la crítica es apenas perceptible. ...

Una serie de notas sobre LLMs (incluidas "novedades" sobre el razonamiento matemático de ALIA en catalán)

Los interesados en averiguar con cierto conocimiento de causa cuál es el impacto medioambiental del entrenamiento y uso de los LLMs pueden echarle un vistazo a este estudio de Mistral. En esta entrevista, Tyler Cowen argumenta que los métodos tradicionales para medir el progreso de la IA usando benchmarks tienen un problema fundamental que contribuye a crear la percepción de que el progreso de la tecnología será muy importante. El problema radica en que los benchmarks actuales están basados en tareas que los sistemas actuales todavía no son capaces de realizar. Como alternativa, sugiere medir el progreso de la IA usando una canasta de consumo que mida el progreso precisamente en aquellas tareas en que la gente normal la usa realmente. ...

LLMs para la predicción de series temporales y algunos asuntos más

El prompt injection es una técnica para robar información a un agente. Si un agente tiene, por ejemplo, acceso al correo electrónico, se le puede enviar un mensaje dándole instrucciones que alteren su comportamiento. Es un problema bien conocido de los agentes y ahora en Defeating Prompt Injections by Design se describe una solución basada en dos agentes, uno de los cuales tiene como función supervisar las acciones del otro. Como no puede ser de otra manera, el MCP plantea grandes problemas de seguridad. ...

Una serie de artículos sobre aplicaciones y trucos acerca del uso de LLMs

Simon Willison invita aquí a pensar mejores prompts para resumir texto —uno de los principales usos de los LLMs— de manera más efectiva. Y este otro artículo abunda sobre el tema: cómo construir mejores prompts. El problema que tiene es el de siempre: solo puedes entretenerte en pulir los prompts cuando esperas obtener mucho valor de la respuesta. Para el uso rápido y cotidiano, continuaremos con nuestras heurísticas frugales. Dos usuarios avanzados de los LLMs desvelan algunos de sus trucos: ...

Ahora el blog tiene una lista de entradas relacionadas construida usando LLMs

He implementado las entradas relacionadas en el blog. Dos entradas están relacionadas cuando el producto escalar de sus embeddings es alto. Así que en primer lugar he asociado a cada entrada un embedding. Las entradas son ficheros de markdown con un preámbulo en yaml. Los embeddings no están creados directamente sobre el texto bruto de la entrada sino sobre la entrada y algunos de los elementos, no todos, del preámbulo. ...

Una nueva selección de novedades relevantes del mundo de los LLMs

Todo el mundo lleva días hablando del MCP. Creo que ni merece la pena decir qué cosa es. MCP es un mecanismo para empoderar agentes. Para los primeros que creé, utilicé CrewAI pero he migrado a LangChain porque: A CrewAI le encantan las dependencias tochas: para cualquier trivialidad crea entornos de varios GB. CrewAI está diseñado para un tipo de agentes muy concreto —agentes a los que se delega enteramente el control del flujo del proceso— que no son exactamente los que más me interesan ahora –que suelen incluir un elemento de control por mi parte—. Aunque todo el mundo habla de LangChain y CrewAI, hay algunas innovaciones interesantes, entre las cuales: ...

¿Acabaremos programando todos en ensamblador?

Un lenguaje de programación es un lenguaje que media entre el que nos es familiar a los humanos y el que reconocen las computadoras. Los lenguajes de alto nivel nos resultan más cómodos; los de bajo nivel, más crípticos. Todos conocemos, pienso, el trade-off. Ahora todo el mundo programa en Python. Pero los hay que lo hacen de una manera rara: Hay un nuevo tipo de programación que llamo [Andrej Karpathy] “programación de vibraciones”, en la que te entregas por completo a las vibraciones, adoptas exponenciales y te olvidas de que el código existe. Es posible porque los LLM (por ejemplo, Cursor Composer con Sonnet) se están volviendo demasiado buenos. Además, solo hablo con Composer usando SuperWhisper, por lo que apenas toco el teclado. Pido las cosas más tontas como “reducir el relleno en la barra lateral a la mitad” porque soy demasiado vago para buscarlo. “Acepto todo” siempre, ya no leo los diffs. Cuando recibo mensajes de error, simplemente los copio y pego sin comentarios; generalmente, eso lo soluciona. El código crece más allá de mi comprensión habitual, tendría que leerlo realmente durante un tiempo. A veces, los LLM no pueden corregir un error, así que simplemente busco alternativas o pido cambios aleatorios hasta que desaparece. No está tan mal para proyectos de fin de semana intrascendentes, pero sigue siendo bastante divertido. Estoy desarrollando un proyecto o una aplicación web, pero en realidad no es programación: solo veo cosas, digo cosas, ejecuto cosas y copio y pego cosas, y en general funciona. ...

Modelos gratuitos en OpenRouter y algunos asuntos más

Las dos noticias del siglo de la semana en el mundo de los LLMs: Un análisis en profundidad (aunque presumiblemente prematuro) sobre el nuevo Grok 3. Sobre el Deep Research de Perplexity. Aquí, The Economist argumenta que los LLMs no nos igualarán sino lo contrario, que contribuirá a separar aún más el desempeño socioeconómico de los individuos en función de sus capacidades cognitivas (separate the best from the rest, en su formulación original). ...

Computación cuántica en Barcelona (al lado de ALIA) y algunos asuntos más

Mandar una petición a un LLM equivale a usar un ordenador (bastante potente) un ratico. El consumo de electricidad no puede ser tan alto. Tiene que ser infinitamente inferior al de actividades cotidianas que involucren calentar cosas, por ejemplo. Pero el que quiera los números concretos, puede echarle un vistazo a Individual AI use is not bad for the environment. LLMs a los que se pregunta por una variante del tres en raya, consistente en rotar el tablero 90 grados. Sus respuestas, todas desatinadas —de otra manera, ¿se habrían publicado los resultados?—, aquí. ...

Unas cuantas noticias sobre LLMs

DeepSeek V3 llevaba publicado desde diciembre; R1, desde hacía más de una semana; pero solo fue el lunes 27 de enero cuando NVIDIA sufrió un descalabro y DeepSeek apareció repentinamente —hasta entonces no había rebasado los habituales foros friquis— en boca de todos (véase esto o esto, dos de las mejores piezas al respecto que he recopilado). Aparentemente, lo que hizo caer la bolsa fue el artículo The Short Case for Nvidia Stock, aparecido el sábado 25 de enero, en el que se hace un repaso detallado de las fortalezas pero, sobre todo, los peligros que acechan a NVIDIA. Algunas de las cuestiones que trata son: ...