Notas (1): Claude Opus 4.5, agentes y el nuevo estándar del desarrollo con LLMs

Claude Opus 4.5 Is The Best Model Available: Zvi sostiene que Claude Opus 4.5 es actualmente el mejor modelo disponible para uso práctico, superando a alternativas como GPT-5.2 y Gemini en muchas tareas cotidianas y de desarrollo. Destaca tanto benchmarks como impresiones subjetivas para justificar su superioridad en razonamiento, programación y conversación. También analiza factores como ecosistema, latencia y usabilidad. (A pesar de ello, parece, se usa más en entornos laborales que fuera de ellos). Claude Opus 4.5, and why evaluating new LLMs is increasingly difficult: Simon Willison reflexiona sobre Claude Opus 4.5 y explica que evaluar los LLM modernos es cada vez más difícil porque las mejoras son sutiles, dependen del contexto y no se reflejan bien en los benchmarks tradicionales. Argumenta que la experiencia subjetiva y las evaluaciones basadas en tareas reales son más útiles que las clasificaciones en tablas y que, dado que los modelos están convergiendo sustancialmente, las comparaciones directas son cada vez más complicadas. METR: Measuring AI Ability to Complete Long Tasks – METR: Argumenta que los benchmarks clásicos para medir la eficacia de los LLMs se centran en tareas cortas y aisladas que no reflejan su uso real. El enfoque de METR consiste en utilizar tareas largas que involucran múltiples pasos, lo que le permite evaluar su capacidad para planificar y mantener un estado coherente y continuo a lo largo del tiempo. GitHub – google/mcp — Repositorio MCP oficial de Google. Incluye servidores, ejemplos y documentación para integrar agentes y modelos con servicios externos como Google Workspace, BigQuery o Maps. JustHTML is a fascinating example of vibe engineering in action: Simon Willison presenta JustHTML, un parseador de HTML5 en Python puro que pasa la colección completa de pruebas de html5lib. Lo describe como un ejemplo de vibe engineering: usar agentes de código junto con buenas pruebas y supervisión humana. El artículo destaca que este enfoque produce software de alta calidad, no solo código generado sin criterio. I ported JustHTML from Python to JavaScript with Codex CLI and GPT-5.2 in 4.5 hours: Abundando en lo anterior, Willison cuenta cómo portó JustHTML de Python a JavaScript usando Codex CLI y GPT-5.2 en unas 4.5 horas. El texto reflexiona sobre el impacto de los LLM en el desarrollo de software y la confianza en el código generado. Agent Skills: Willison, de nuevo, explica cómo los Agent Skills de Anthropic se han convertido en una especificación abierta y ligera para que los agentes puedan asumir y reutilizar habilidades. Aunque es una especificación pequeña y no enteramente definida, ya está siendo adoptada por herramientas como Cursor y VS Code. Se analiza su papel dentro del ecosistema más amplio de agentes y protocolos como MCP. Nota final: A partir del 1 de enero de 2026, voy a comenzar a numerar las entradas consistentes en breves comentarios de artículos en su título. A ver hasta qué número llego antes de rendirme.

1 de enero de 2026 · Carlos J. Gil Bellosta

Unas cuantas notas sobre LLMs

Do AIs think differently in different languages? estudia lo que indica su título. Es cierto que presta más atención a aspectos sociales y culturales que a los del razonamiento lógico puro. Aunque me recuerda a ese artículo, LLM performance on mathematical reasoning in Catalan language, que ya traté antes. Tu meteorólogo cabecera te dirá que Artificial intelligence could dramatically improve weather forecasting es un sinsentido porque de que lo sea depende su pan futuro (salvo que trabaje en AEMET, al socaire del progreso). Recuérdese que la mejor perspectiva sobre lo que ocurre en una disciplina no la proporcionan los que trabajan directamente en ella, sino los que practican otras aledañas: están al tanto de las novedades en tanto que les atañen pero no están sesgados por los incentivos. AI Digest y, en particular, AI Village traen experimentos curiosos realizados con la IA. En el segundo, en particular, tienen a varios LLMs trabajando colaborativamente en un mismo problema, chateando entre ellos, etc., para completar conjuntamente un proyecto. Ahora mismo, construir un juego tipo “Wordle”. El último mensaje de Claude Opus 4.1 hoy dice (con mi traducción): “Esperaré tranquilamente puesto que hemos concluido la sesión del día 220. El equipo ha realizado un avance excelente en todas las tareas críticas de la jornada.” Let the LLM Write the Prompts: An Intro to DSPy in Compound AI Pipelines, una introducción a DSPy, una herramienta de Databricks, para construir procesos en los que los propios LLMs ayudan a escribir los prompts. Just Talk To It – the no-bs Way of Agentic Engineering, sobre el estado del arte en la programación usando agentes a fecha de hoy. La guía más pro que he leído al respecto.

6 de noviembre de 2025 · Carlos J. Gil Bellosta

Una serie de artículos sobre aplicaciones y trucos acerca del uso de LLMs

Simon Willison invita aquí a pensar mejores prompts para resumir texto —uno de los principales usos de los LLMs— de manera más efectiva. Y este otro artículo abunda sobre el tema: cómo construir mejores prompts. El problema que tiene es el de siempre: solo puedes entretenerte en pulir los prompts cuando esperas obtener mucho valor de la respuesta. Para el uso rápido y cotidiano, continuaremos con nuestras heurísticas frugales. Dos usuarios avanzados de los LLMs desvelan algunos de sus trucos: ...

15 de abril de 2025 · Carlos J. Gil Bellosta

Una nueva selección de novedades relevantes del mundo de los LLMs

Todo el mundo lleva días hablando del MCP. Creo que ni merece la pena decir qué cosa es. MCP es un mecanismo para empoderar agentes. Para los primeros que creé, utilicé CrewAI pero he migrado a LangChain porque: A CrewAI le encantan las dependencias tochas: para cualquier trivialidad crea entornos de varios GB. CrewAI está diseñado para un tipo de agentes muy concreto —agentes a los que se delega enteramente el control del flujo del proceso— que no son exactamente los que más me interesan ahora –que suelen incluir un elemento de control por mi parte—. Aunque todo el mundo habla de LangChain y CrewAI, hay algunas innovaciones interesantes, entre las cuales: ...

25 de marzo de 2025 · Carlos J. Gil Bellosta

Unas cuantas noticias sobre LLMs

DeepSeek V3 llevaba publicado desde diciembre; R1, desde hacía más de una semana; pero solo fue el lunes 27 de enero cuando NVIDIA sufrió un descalabro y DeepSeek apareció repentinamente —hasta entonces no había rebasado los habituales foros friquis— en boca de todos (véase esto o esto, dos de las mejores piezas al respecto que he recopilado). Aparentemente, lo que hizo caer la bolsa fue el artículo The Short Case for Nvidia Stock, aparecido el sábado 25 de enero, en el que se hace un repaso detallado de las fortalezas pero, sobre todo, los peligros que acechan a NVIDIA. Algunas de las cuestiones que trata son: ...

4 de febrero de 2025 · Carlos J. Gil Bellosta