Notas (6): Terence Tao sobre los LLMs en matemáticas y algunos asuntos más

Mathematical exploration and discovery at scale. Terence Tao describe su experiencia con AlphaEvolve, una herramienta que utiliza LLMs para evolucionar código para resolver problemas de optimización matemática. Tao lo relaciona con el descenso estocástico: en lugar de optimizar generando iterativamente nuevos vectores más o menos aleatorios que van aproximándose al óptimo, el sistema genera un programa aleatorio en Python que va refinando progresivamente el anterior. Una serie de herramientas creadas por Google: ...

2 de febrero de 2026 · Carlos J. Gil Bellosta

Notas (1): Claude Opus 4.5, agentes y el nuevo estándar del desarrollo con LLMs

Claude Opus 4.5 Is The Best Model Available: Zvi sostiene que Claude Opus 4.5 es actualmente el mejor modelo disponible para uso práctico, superando a alternativas como GPT-5.2 y Gemini en muchas tareas cotidianas y de desarrollo. Destaca tanto benchmarks como impresiones subjetivas para justificar su superioridad en razonamiento, programación y conversación. También analiza factores como ecosistema, latencia y usabilidad. (A pesar de ello, parece, se usa más en entornos laborales que fuera de ellos). Claude Opus 4.5, and why evaluating new LLMs is increasingly difficult: Simon Willison reflexiona sobre Claude Opus 4.5 y explica que evaluar los LLM modernos es cada vez más difícil porque las mejoras son sutiles, dependen del contexto y no se reflejan bien en los benchmarks tradicionales. Argumenta que la experiencia subjetiva y las evaluaciones basadas en tareas reales son más útiles que las clasificaciones en tablas y que, dado que los modelos están convergiendo sustancialmente, las comparaciones directas son cada vez más complicadas. METR: Measuring AI Ability to Complete Long Tasks – METR: Argumenta que los benchmarks clásicos para medir la eficacia de los LLMs se centran en tareas cortas y aisladas que no reflejan su uso real. El enfoque de METR consiste en utilizar tareas largas que involucran múltiples pasos, lo que le permite evaluar su capacidad para planificar y mantener un estado coherente y continuo a lo largo del tiempo. GitHub – google/mcp — Repositorio MCP oficial de Google. Incluye servidores, ejemplos y documentación para integrar agentes y modelos con servicios externos como Google Workspace, BigQuery o Maps. JustHTML is a fascinating example of vibe engineering in action: Simon Willison presenta JustHTML, un parseador de HTML5 en Python puro que pasa la colección completa de pruebas de html5lib. Lo describe como un ejemplo de vibe engineering: usar agentes de código junto con buenas pruebas y supervisión humana. El artículo destaca que este enfoque produce software de alta calidad, no solo código generado sin criterio. I ported JustHTML from Python to JavaScript with Codex CLI and GPT-5.2 in 4.5 hours: Abundando en lo anterior, Willison cuenta cómo portó JustHTML de Python a JavaScript usando Codex CLI y GPT-5.2 en unas 4.5 horas. El texto reflexiona sobre el impacto de los LLM en el desarrollo de software y la confianza en el código generado. Agent Skills: Willison, de nuevo, explica cómo los Agent Skills de Anthropic se han convertido en una especificación abierta y ligera para que los agentes puedan asumir y reutilizar habilidades. Aunque es una especificación pequeña y no enteramente definida, ya está siendo adoptada por herramientas como Cursor y VS Code. Se analiza su papel dentro del ecosistema más amplio de agentes y protocolos como MCP. Nota final: A partir del 1 de enero de 2026, voy a comenzar a numerar las entradas consistentes en breves comentarios de artículos en su título. A ver hasta qué número llego antes de rendirme.

1 de enero de 2026 · Carlos J. Gil Bellosta

Modelos gratuitos en OpenRouter y algunos asuntos más

Las dos noticias del siglo de la semana en el mundo de los LLMs: Un análisis en profundidad (aunque presumiblemente prematuro) sobre el nuevo Grok 3. Sobre el Deep Research de Perplexity. Aquí, The Economist argumenta que los LLMs no nos igualarán sino lo contrario, que contribuirá a separar aún más el desempeño socioeconómico de los individuos en función de sus capacidades cognitivas (separate the best from the rest, en su formulación original). ...

25 de febrero de 2025 · Carlos J. Gil Bellosta

LLMs: algunas herramientas (potencialmente) útiles

Artefactos de Claude Una de las aplicaciones derivadas de los LLMs que más satisfacciones me están dando son los artefactos de Claude (véase, por ejemplo, esto). Es complicado en todo caso ejecutar aplicaciones web generadas por Claude (vía artefactos) por defecto sin haber configurado previamente un entorno en node con las dependencias adecuadas. Los artefactos están pensados para, por defecto, ser alojados por Claude directamente. Si uno quiere bajar el código y correrlos en su propia máquina, tiene que hacerlo en un entorno en el que existan las dependencias correspondientes. ...

19 de noviembre de 2024 · Carlos J. Gil Bellosta

El bee-bot vía "artefactos" de Claude

El “bee-bot” es un juego infantil educativo no particularmente barato. Así que he construido una versión web de la cosa en poco rato. En particular, le he dicho a Claude: I want to create a webpage to play a version of the bee-bot game for children. In the main canvas there is a grid. In two random squares of the grid, there are a bee and a flower. The interface are four buttons with numbers 1-4, four arrows and a go button. The child needs to type the sequence of numbers and arrows and when the go button is pressed, the bee will move. Say, if the sequence is 2, up, 4, right, 2, the bee will move two squares, then turn up, advance 4 squares, turn right, and move two squares. ...

24 de octubre de 2024 · Carlos J. Gil Bellosta