Cortos

Notas (1): Claude Opus 4.5, agentes y el nuevo estándar del desarrollo con LLMs

  • Claude Opus 4.5 Is The Best Model Available: Zvi sostiene que Claude Opus 4.5 es actualmente el mejor modelo disponible para uso práctico, superando a alternativas como GPT-5.2 y Gemini en muchas tareas cotidianas y de desarrollo. Destaca tanto benchmarks como impresiones subjetivas para justificar su superioridad en razonamiento, programación y conversación. También analiza factores como ecosistema, latencia y usabilidad. (A pesar de ello, parece, se usa más en entornos laborales que fuera de ellos).
  • Claude Opus 4.5, and why evaluating new LLMs is increasingly difficult: Simon Willison reflexiona sobre Claude Opus 4.5 y explica que evaluar los LLM modernos es cada vez más difícil porque las mejoras son sutiles, dependen del contexto y no se reflejan bien en los benchmarks tradicionales. Argumenta que la experiencia subjetiva y las evaluaciones basadas en tareas reales son más útiles que las clasificaciones en tablas y que, dado que los modelos están convergiendo sustancialmente, las comparaciones directas son cada vez más complicadas.
  • METR: Measuring AI Ability to Complete Long Tasks – METR: Argumenta que los benchmarks clásicos para medir la eficacia de los LLMs se centran en tareas cortas y aisladas que no reflejan su uso real. El enfoque de METR consiste en utilizar tareas largas que involucran múltiples pasos, lo que le permite evaluar su capacidad para planificar y mantener un estado coherente y continuo a lo largo del tiempo.
  • GitHub – google/mcp — Repositorio MCP oficial de Google. Incluye servidores, ejemplos y documentación para integrar agentes y modelos con servicios externos como Google Workspace, BigQuery o Maps.
  • JustHTML is a fascinating example of vibe engineering in action: Simon Willison presenta JustHTML, un parseador de HTML5 en Python puro que pasa la colección completa de pruebas de html5lib. Lo describe como un ejemplo de vibe engineering: usar agentes de código junto con buenas pruebas y supervisión humana. El artículo destaca que este enfoque produce software de alta calidad, no solo código generado sin criterio.
  • I ported JustHTML from Python to JavaScript with Codex CLI and GPT-5.2 in 4.5 hours: Abundando en lo anterior, Willison cuenta cómo portó JustHTML de Python a JavaScript usando Codex CLI y GPT-5.2 en unas 4.5 horas. El texto reflexiona sobre el impacto de los LLM en el desarrollo de software y la confianza en el código generado.
  • Agent Skills: Willison, de nuevo, explica cómo los Agent Skills de Anthropic se han convertido en una especificación abierta y ligera para que los agentes puedan asumir y reutilizar habilidades. Aunque es una especificación pequeña y no enteramente definida, ya está siendo adoptada por herramientas como Cursor y VS Code. Se analiza su papel dentro del ecosistema más amplio de agentes y protocolos como MCP.

Nota final: A partir del 1 de enero de 2026, voy a comenzar a numerar las entradas consistentes en breves comentarios de artículos en su título. A ver hasta qué número llego antes de rendirme.

Números engañosos y algunos otros asuntos relacionados con la estadística (y la seudosociología del CIS)

Construcción de intervalos de confianza para gráficos de calibración vía "bootstrap" y algunos asuntos más

Visualizing XGBoost Models with SHAP in Python: Feature Importance, Dependence, and Interaction Plots es otro tutorial sobre todas esas cosas. Pero a los interesados en la materia, les recomiendo la lectura sosegada de Interpretable Machine Learning.

Andrew Gelman discute el problema común de que los intervalos subjetivos del 50% suelen ser demasiado estrechos y que, como consecuencia, no capturan realmente el 50% de los resultados. Como solución, propone la siguiente estrategia: construir el intervalo intuitivo y luego ampliarlo por un factor fijo (p. ej., 1.5×) para mejorar la calibración. Aunque no es, obviamente, una solución completa, ofrece un punto de partida práctico para mejorar la calibración subjetiva de la incertidumbre.

Notas varias sobre estadística y temas afines

  • Turning trig identities into Fibonacci identities muestra cómo ciertas identidades trigonométricas pueden transformarse de forma sistemática en identidades que involucran números de Fibonacci (y de Lucas). El motivo es que la estructura algebraica de las funciones trigonométricas involucra ciertas relaciones recurrentes, vinculándolas con los números de Fibonacci.

  • A quote from Nicholas Carlini sobre los LLMs y las extorsiones en la que describe cómo podrían ser las extorsiones del futuro. Ya no será “te robo los datos y me tienes que pagar para que te los devuelva” sino “usando un LLM sobre tus datos hemos encontrado indicios de ciertas actividades que, casi seguro, preferirías no fuesen conocidas por otros y nos tendrás que pagar para que no se las revelemos”.

Sobre la sentencia del caso Bosco y algunos otros asuntos más

  • The fate of “small” open source presenta un probable estado futuro del mundo del desarrollo de software, uno en el que los pequeños proyectos dejen de ser relevantes porque sus potenciales usuarios pueden reemplazarlos perfectamente por código ad hoc generado por LLMs. En efecto, hace años creé un paquete mínimo de R con apenas un par de funciones que implementaban ciertas pruebas estadísticas no disponibles en ningún otro por aquel entonces. En 2025 no haría falta ese paquete: bastaría con pedirle a Claude una implementación en R, copiarla y pegarla. El autor del artículo enlazado se queja de que algo se perderá en el proceso; yo creo que es algo por lo que no vale la pena llorar.

Unas cuantas notas sobre estadística, teoría y de la decisión y otras cuestiones

Un artículo sobre cómo crear intervalos de predicción conformes en modelos de ML, en particular con modelos basados en XGBoost. Y otro, este, sobre cómo inferir el tamaño muestral a partir de su anchura.

También de John D. Cook, ODE to Fisher’s transform. Aparentemente, para normalizar el coeficiente de correlación se puede aplicar una transformación en la que interviene atanh y cuya derivación exige resolver una ecuación diferencial ordinaria. Por su parte, la ecuación diferencial surge de igualar el desarrollo de la curtosis a cero.

Unas cuantas notas sobre economía (y salarios)

En Archegos y el insider trading en EE.UU. y en Europa: los bancos sabían algo que ellos no sabían y una coda sobre la IA en Derecho, el autor, Jesús Alfaro, discute un tema jurídico con un LLM y concluye:

Por eso, la utilidad de la IA para Ciencias Sociales y Humanidades es mucho menor que para las Ciencias duras (y es más fácil pillar a un estudiante que ha ‘subcontratado’ a la IA su trabajo de fin de grado). La responsabilidad de los juristas académicos es proporcionar a la IA ‘buenos materiales’. Ahora hay una razón más para cuidar lo que los profesores publican. Ya no es completamente inocuo publicar artículos bazofiosos porque, aunque tus colegas no te lean, la IA ’te va a leer’. La protagonista de Sexo, mentiras y cintas de video estaba obsesionada con la basura. Andie McDowell dice a su psiquiatra: “Pienso en la basura. ¿Dónde va? ¿Qué pasa con ella? ¿Qué pasa con toda la basura?”. Ahora ya sabemos dónde va la basura que se publica en internet: a alimentar a la inteligencia artificial.

Unas cuantas notas sobre LLMs

  1. Do AIs think differently in different languages? estudia lo que indica su título. Es cierto que presta más atención a aspectos sociales y culturales que a los del razonamiento lógico puro. Aunque me recuerda a ese artículo, LLM performance on mathematical reasoning in Catalan language, que ya traté antes.
  2. Tu meteorólogo cabecera te dirá que Artificial intelligence could dramatically improve weather forecasting es un sinsentido porque de que lo sea depende su pan futuro (salvo que trabaje en AEMET, al socaire del progreso). Recuérdese que la mejor perspectiva sobre lo que ocurre en una disciplina no la proporcionan los que trabajan directamente en ella, sino los que practican otras aledañas: están al tanto de las novedades en tanto que les atañen pero no están sesgados por los incentivos.
  3. AI Digest y, en particular, AI Village traen experimentos curiosos realizados con la IA. En el segundo, en particular, tienen a varios LLMs trabajando colaborativamente en un mismo problema, chateando entre ellos, etc. para completar conjuntamente un proyecto. Ahora mismo, construir un juego tipo “Wordle”. El último mensaje de Claude Opus 4.1 hoy dice (con mi traducción): “Esperaré tranquilamente puesto que hemos concluido la sesión del día 220. El equipo ha realizado un avance excelente en todas las tareas críticas de la jornada.”
  4. Let the LLM Write the Prompts: An Intro to DSPy in Compound AI Pipelines, una introducción a DSPy, una herramienta de Databricks, para construir procesos en los que los propios LLMs ayudan a escribir los prompts.
  5. Just Talk To It – the no-bs Way of Agentic Engineering, sobre el estado del arte en la programación usando agentes a fecha de hoy. La guía más pro que he leído al respecto.

Unas cuantas notas sobre probabilidad

  • Monty Hall and generative modeling: Drawing the tree is the most important step: Un artículo que invita a pensar los problemas de probabilidad en términos generativos, en cómo se obtienen los resultados, ilustrándolo con el ejemplo clásico del problema de Monty Hall: en lugar de buscar directamente una respuesta, es conveniente dibujar el árbol de probabilidad para aclarar las suposiciones sobre cómo se generan los datos (o decisiones).
  • Why probability probably doesn’t exist (but it is useful to act like it does): Abunda sobre la vieja y manida cuestión sobre si la probabilidad existe objetivamente. Pero esquiva el meollo de la cuestión y se queda en que, como concepto, es extremadamente útil como herramienta para comprender y estudiar el mundo. Incluso si dudamos de la existencia real de la probabilidad, argumenta que es conveniente actuar como si existiera.
  • Yes, your single vote really can make a difference! (in Canada): Se refiere a un caso real ocurrido en Canadá en el que un distrito electoral fue decidido por un solo voto. Es la anécdota que algunos querrán esgrimir contra la categoría de la irracionalidad del voto individual.
  • En Distribution of correlation y en Is the skewness of the distribution of the empirical correlation coefficient asymptotically proportional to the correlation? se analiza un mismo problema, el de la distribución del coeficiente de correlación. Si se toman muestras con una correlación real predefinida y fija $\rho$, se obtiene una distribución asimétrica (necesariamente), cuya asimetría crece con la correlación $\rho$. Cuando las distribuciones son normales, existe solución analítica, pero incluso en ese caso parece más razonable simular.
  • Matt Levine cuenta una historia muy instructiva sobre lanzamientos de monedas en el mundo real:
    1. Entrevistaban a alguien para un trabajo en un hedge fund y le hicieron estudiar las matemáticas (esperanza, desviación estándar) de 1000 lanzamientos de monedas.
    2. Una vez hechos los cálculos, le preguntaron si aceptaría participar en un juego en el que ganaría $0.5 + \epsilon$ de tirar una moneda y que saliese cara.
    3. El tipo dijo que sí.
    4. El entrevistador le contestó: “no, respuesta incorrecta; si te lo ofrecemos, no deberías aceptarlo: tenemos un tipo ahí abajo que saca un 55% de caras”.

Unas cuantas notas sobre LLMs

  • What Is Man, That Thou Are Mindful Of Him? es un texto satírico en el que se le da la vuelta a los argumentos que se hacen contra la inteligencia de los LLMs y volviéndolos contra los errores de razonamiento que cometemos tan frecuentemente los humanos.
  • Why AI systems might never be secure discute la “tríada letal” (exposición a datos externos, acceso a información privada y capacidad de actuar externamente) que hace de los agentes a los que se confieren las anteriores facultades sistemas intrínsecamente inseguros.
  • En los materiales del curso Stanford CS221 Autumn 2025 de la U. de Stanford, se puede encontrar el párrafo siguiente:

¡Aprende las operaciones básicas de NumPy con un tutor de IA! Usa un chatbot (p.e., ChatGPT, Claude, Gemini o Stanford AI Playground) para aprender por ti mismo cómo realizar operaciones vectoriales y matriciales básicas con NumPy. Los tutores de IA pueden construir hoy en día tutoriales interactivos excepcionalmente buenos y este año, en CS221, estamos investigando cómo pueden ayudarte a aprender los fundamentos más interactivamente que a través de los ejercicios estáticos clásicos.