Llms

Notas (3): Causalidad en mercados de predicciones y modelos económicos

  • Futarchy’s fundamental flaw: Dynomight sostiene que la idea central de la futarquía —el uso de mercados de predicciones como guía de las políticas económicas— es problemática porque esos mercados únicamente revelan probabilidades condicionales (correlaciones) y no efectos causales reales, i.e., qué ocurriría si se toma una decisión. Dado que las probabilidades condicionales no reflejan intervenciones, los precios de mercado pueden inducir a error sobre el impacto real de las políticas, un punto que el autor ilustra con varios ejemplos.
  • Decision Conditional Prices Reflect Causal Chances: Es la réplica de Robin Hanson, a quien debemos el concepto de la futarquía, a la entrada anterior. Sostiene que si los agentes usan la misma teoría de decisión y comparten información similar, entonces los precios sí reflejan las probabilidades relevantes para el cálculo de la utilidad esperada. Como consecuencia, los mercados de predicciones serían más útiles para tomar decisiones de lo que afirman sus críticos, por más que subsistan problemas técnicos relacionados con la asimetría de la información y cuestiones relacionadas con la temporalidad.
  • When thinking about causal inference, mechanistic or process models are important. I think that the association of “causal” with black-box models leads to lots of problems.: Andrew Gelman defiende los modelos generativos (que describen la dinámica subyacente de los sistemas) para comprender y generalizar relaciones causales, particularmente frente a la proliferación de sistemas opacos basados en la IA.
  • Can a Transformer “Learn” Economic Relationships?: Un artículo que abunda sobre la cuestión del anterior. Estudia si las redes neuronales pueden aprender relaciones económicas estructurales a partir de datos simulados y muestra cómo estos modelos pueden aprender la dinámica de un modelo neokeynesiano y realizar predicciones razonables con datos distintos de los de entrenamiento, lo que sugiere que pueden capturar aspectos relevantes del proceso generador de datos. Sin embargo, los modelos no aprenden completamente las relaciones estructurales verdaderas. Como conclusión, los LLMs actuales no resuelven por completo los problemas señalados por la crítica de Lucas, pero abren nuevas vías para la modelización económica.
  • Causation Does not Imply Variation: John H. Cochrane señala que identificar un efecto causal de una variable sobre otra no implica que las variaciones en ese factor causal expliquen gran parte de la variación observada en el resultado. Los métodos empíricos suelen aislar variaciones pequeñas y exógenas para estimar efectos causales, pero la mayor parte de la variación real suele provenir de otros factores. Así que, aunque la identificación causal ha mejorado la economía empírica, no necesariamente explica qué impulsa la mayor parte de la variación en variables clave.

Notas (1): Claude Opus 4.5, agentes y el nuevo estándar del desarrollo con LLMs

  • Claude Opus 4.5 Is The Best Model Available: Zvi sostiene que Claude Opus 4.5 es actualmente el mejor modelo disponible para uso práctico, superando a alternativas como GPT-5.2 y Gemini en muchas tareas cotidianas y de desarrollo. Destaca tanto benchmarks como impresiones subjetivas para justificar su superioridad en razonamiento, programación y conversación. También analiza factores como ecosistema, latencia y usabilidad. (A pesar de ello, parece, se usa más en entornos laborales que fuera de ellos).
  • Claude Opus 4.5, and why evaluating new LLMs is increasingly difficult: Simon Willison reflexiona sobre Claude Opus 4.5 y explica que evaluar los LLM modernos es cada vez más difícil porque las mejoras son sutiles, dependen del contexto y no se reflejan bien en los benchmarks tradicionales. Argumenta que la experiencia subjetiva y las evaluaciones basadas en tareas reales son más útiles que las clasificaciones en tablas y que, dado que los modelos están convergiendo sustancialmente, las comparaciones directas son cada vez más complicadas.
  • METR: Measuring AI Ability to Complete Long Tasks – METR: Argumenta que los benchmarks clásicos para medir la eficacia de los LLMs se centran en tareas cortas y aisladas que no reflejan su uso real. El enfoque de METR consiste en utilizar tareas largas que involucran múltiples pasos, lo que le permite evaluar su capacidad para planificar y mantener un estado coherente y continuo a lo largo del tiempo.
  • GitHub – google/mcp — Repositorio MCP oficial de Google. Incluye servidores, ejemplos y documentación para integrar agentes y modelos con servicios externos como Google Workspace, BigQuery o Maps.
  • JustHTML is a fascinating example of vibe engineering in action: Simon Willison presenta JustHTML, un parseador de HTML5 en Python puro que pasa la colección completa de pruebas de html5lib. Lo describe como un ejemplo de vibe engineering: usar agentes de código junto con buenas pruebas y supervisión humana. El artículo destaca que este enfoque produce software de alta calidad, no solo código generado sin criterio.
  • I ported JustHTML from Python to JavaScript with Codex CLI and GPT-5.2 in 4.5 hours: Abundando en lo anterior, Willison cuenta cómo portó JustHTML de Python a JavaScript usando Codex CLI y GPT-5.2 en unas 4.5 horas. El texto reflexiona sobre el impacto de los LLM en el desarrollo de software y la confianza en el código generado.
  • Agent Skills: Willison, de nuevo, explica cómo los Agent Skills de Anthropic se han convertido en una especificación abierta y ligera para que los agentes puedan asumir y reutilizar habilidades. Aunque es una especificación pequeña y no enteramente definida, ya está siendo adoptada por herramientas como Cursor y VS Code. Se analiza su papel dentro del ecosistema más amplio de agentes y protocolos como MCP.

Nota final: A partir del 1 de enero de 2026, voy a comenzar a numerar las entradas consistentes en breves comentarios de artículos en su título. A ver hasta qué número llego antes de rendirme.

Sobre la sentencia del caso Bosco y algunos otros asuntos más

  • The fate of “small” open source presenta un probable estado futuro del mundo del desarrollo de software, uno en el que los pequeños proyectos dejen de ser relevantes porque sus potenciales usuarios pueden reemplazarlos perfectamente por código ad hoc generado por LLMs. En efecto, hace años creé un paquete mínimo de R con apenas un par de funciones que implementaban ciertas pruebas estadísticas no disponibles en ningún otro por aquel entonces. En 2025 no haría falta ese paquete: bastaría con pedirle a Claude una implementación en R, copiarla y pegarla. El autor del artículo enlazado se queja de que algo se perderá en el proceso; yo creo que es algo por lo que no vale la pena llorar.

Sobre esos LLMs que a pesar de no tener imaginación y creatividad, se lo inventan todo

Ese tipo de gente que nunca se va a contentar con nada y por culpa de la cual nunca vamos a tener cosas bonitas suele utilizar contra la IA, entre otros, estos dos argumentos:

  1. Que alucina y que se inventa cosas que no existen.
  2. Que carece de creatividad porque se limita a regurgitar un refrito de aquello con lo que ha sido entrenada. O, dicho de otra manera, que se limita a interpolar en lugar de extrapolar, que es aquello en lo que consiste la creatividad y la verdadera inteligencia.

Me pregunto si son conscientes de la fundamental contradicción entre ambos argumentos.

Unas cuantas notas sobre economía (y salarios)

En Archegos y el insider trading en EE.UU. y en Europa: los bancos sabían algo que ellos no sabían y una coda sobre la IA en Derecho, el autor, Jesús Alfaro, discute un tema jurídico con un LLM y concluye:

Por eso, la utilidad de la IA para Ciencias Sociales y Humanidades es mucho menor que para las Ciencias duras (y es más fácil pillar a un estudiante que ha ‘subcontratado’ a la IA su trabajo de fin de grado). La responsabilidad de los juristas académicos es proporcionar a la IA ‘buenos materiales’. Ahora hay una razón más para cuidar lo que los profesores publican. Ya no es completamente inocuo publicar artículos bazofiosos porque, aunque tus colegas no te lean, la IA ’te va a leer’. La protagonista de Sexo, mentiras y cintas de vídeo estaba obsesionada con la basura. Andie McDowell dice a su psiquiatra: “Pienso en la basura. ¿Dónde va? ¿Qué pasa con ella? ¿Qué pasa con toda la basura?”. Ahora ya sabemos dónde va la basura que se publica en internet: a alimentar a la inteligencia artificial.

Unas cuantas notas sobre LLMs

  1. Do AIs think differently in different languages? estudia lo que indica su título. Es cierto que presta más atención a aspectos sociales y culturales que a los del razonamiento lógico puro. Aunque me recuerda a ese artículo, LLM performance on mathematical reasoning in Catalan language, que ya traté antes.
  2. Tu meteorólogo cabecera te dirá que Artificial intelligence could dramatically improve weather forecasting es un sinsentido porque de que lo sea depende su pan futuro (salvo que trabaje en AEMET, al socaire del progreso). Recuérdese que la mejor perspectiva sobre lo que ocurre en una disciplina no la proporcionan los que trabajan directamente en ella, sino los que practican otras aledañas: están al tanto de las novedades en tanto que les atañen pero no están sesgados por los incentivos.
  3. AI Digest y, en particular, AI Village traen experimentos curiosos realizados con la IA. En el segundo, en particular, tienen a varios LLMs trabajando colaborativamente en un mismo problema, chateando entre ellos, etc., para completar conjuntamente un proyecto. Ahora mismo, construir un juego tipo “Wordle”. El último mensaje de Claude Opus 4.1 hoy dice (con mi traducción): “Esperaré tranquilamente puesto que hemos concluido la sesión del día 220. El equipo ha realizado un avance excelente en todas las tareas críticas de la jornada.”
  4. Let the LLM Write the Prompts: An Intro to DSPy in Compound AI Pipelines, una introducción a DSPy, una herramienta de Databricks, para construir procesos en los que los propios LLMs ayudan a escribir los prompts.
  5. Just Talk To It – the no-bs Way of Agentic Engineering, sobre el estado del arte en la programación usando agentes a fecha de hoy. La guía más pro que he leído al respecto.

Unas cuantas notas sobre LLMs

  • What Is Man, That Thou Art Mindful Of Him? es un texto satírico en el que se le da la vuelta a los argumentos que se hacen contra la inteligencia de los LLMs y volviéndolos contra los errores de razonamiento que cometemos tan frecuentemente los humanos.
  • Why AI systems might never be secure discute la “tríada letal” (exposición a datos externos, acceso a información privada y capacidad de actuar externamente) que hace de los agentes a los que se confieren las anteriores facultades sistemas intrínsecamente inseguros.
  • En los materiales del curso Stanford CS221 Autumn 2025 de la U. de Stanford, se puede encontrar el párrafo siguiente:

¡Aprende las operaciones básicas de NumPy con un tutor de IA! Usa un chatbot (p.e., ChatGPT, Claude, Gemini o Stanford AI Playground) para aprender por ti mismo cómo realizar operaciones vectoriales y matriciales básicas con NumPy. Los tutores de IA pueden construir hoy en día tutoriales interactivos excepcionalmente buenos y este año, en CS221, estamos investigando cómo pueden ayudarte a aprender los fundamentos más interactivamente que a través de los ejercicios estáticos clásicos.

Varias noticias sobre el mundo de los LLMs

  • En The Drugs Are Taking Hold, David Rosenthal discute la muy problemática rentabilidad futura del negocio de los LLMs. Usa la palabra burbuja doce veces.
  • Dynomight escribe un tanto apocalípticamente sobre la potencial capacidad de persuasión de los LLMs. No de los actuales sino de los mucho más inteligentes que se supone que llegarán en algún momento.
  • Este es un hilo en Reddit sobre las actividades más lucrativas para las que los participantes han usado los LLMs. Una de ellas, interactuar con compañías de seguros.
  • Salió Qwen-Image-Edit y, después, Nano Banana, que todo el mundo dice que es mejor. Aún no he jugado con ninguno de ellos.
  • Más sobre el impacto medioambiental de los LLMs. Esta vez, el de Gemini.
  • ¿Pueden los LLMs razonar y planificar? Hay indicios que hacen sospechar que, de hacerlo, lo hacen muy precariamente. Un indicio de ello es, por ejemplo, que generan tokens a la misma velocidad independientemente de la complejidad (en el sentido técnico, matemático, del término) de la tarea propuesta, cosa que es matemáticamente imposible.
  • Dicen que superwhisper es muy bueno para pasar de voz a texto.
  • En el blog de Andrew Gelman no son muy entusiastas de los LLMs. Sin embargo, acaban de publicar esto. Pronostico aggiornamento a corto plazo.
  • Simon Willison ha publicado una lista de algunas de las herramientas que ha creado con LLMs. También ha publicado este ejemplo bastante completo de un análisis de datos realizado a golpe de vibe.

Una serie de notas sobre el siempre fértil campo de la mala ciencia

¿Pero qué pasa cuando alguien descubre un error en un artículo ya publicado? Sucede todo el tiempo, pero los artículos casi nunca se retiran o corrigen. Nadie hace mucho aspaviento porque, de nuevo, [los autores] son colegas. ¿Por qué crearse enemigos? Incluso si publican un resultado que corrige luego los errores del primer artículo, la gente tiende a medir tanto sus palabras que la crítica es apenas perceptible.

Una serie de notas sobre LLMs (incluidas "novedades" sobre el razonamiento matemático de ALIA en catalán)

  • Los interesados en averiguar con cierto conocimiento de causa cuál es el impacto medioambiental del entrenamiento y uso de los LLMs pueden echarle un vistazo a este estudio de Mistral.

  • En esta entrevista, Tyler Cowen argumenta que los métodos tradicionales para medir el progreso de la IA usando benchmarks tienen un problema fundamental y que contribuye a crear la percepción de que el progreso de la tecnología será muy importante. El problema radica en que los benchmarks actuales están basados en tareas que los sistemas actuales todavía no son capaces de realizar. Como alternativa, sugiere medir el progreso de la IA usando una canasta de consumo que mida el progreso precisamente en aquellas tareas en que la gente normal la usa realmente.