De nuevo, ¿qué significa «un 30% de probabilidad de lluvia»?

Topé el otro día con el artículo Cyrena Arnold, meteoróloga: “La gente no sabe realmente qué significa probabilidad de precipitación”, que me interesó por varios motivos:

  • Una parte sustancial de la teoría sobre calibración de modelos predictivos ha sido desarrollada por meteorólogos.
  • Porque es un asunto que ya he tratado antes.
  • Porque XKCD también:

Probabilidad de lluvia

La probabilidad de precipitación es $C \times A$ donde $C$ es la probabilidad de precipitación en algún lugar de la zona de predicción y $A$ es la proporción del área que recibirá alguna cantidad medible de precipitación, de haberla. Así que el método correcto de interpretar la predicción es: hay un X% de probabilidad de que llueva en algún punto de la zona.

Notas (1): Claude Opus 4.5, agentes y el nuevo estándar del desarrollo con LLMs

  • Claude Opus 4.5 Is The Best Model Available: Zvi sostiene que Claude Opus 4.5 es actualmente el mejor modelo disponible para uso práctico, superando a alternativas como GPT-5.2 y Gemini en muchas tareas cotidianas y de desarrollo. Destaca tanto benchmarks como impresiones subjetivas para justificar su superioridad en razonamiento, programación y conversación. También analiza factores como ecosistema, latencia y usabilidad. (A pesar de ello, parece, se usa más en entornos laborales que fuera de ellos).
  • Claude Opus 4.5, and why evaluating new LLMs is increasingly difficult: Simon Willison reflexiona sobre Claude Opus 4.5 y explica que evaluar los LLM modernos es cada vez más difícil porque las mejoras son sutiles, dependen del contexto y no se reflejan bien en los benchmarks tradicionales. Argumenta que la experiencia subjetiva y las evaluaciones basadas en tareas reales son más útiles que las clasificaciones en tablas y que, dado que los modelos están convergiendo sustancialmente, las comparaciones directas son cada vez más complicadas.
  • METR: Measuring AI Ability to Complete Long Tasks – METR: Argumenta que los benchmarks clásicos para medir la eficacia de los LLMs se centran en tareas cortas y aisladas que no reflejan su uso real. El enfoque de METR consiste en utilizar tareas largas que involucran múltiples pasos, lo que le permite evaluar su capacidad para planificar y mantener un estado coherente y continuo a lo largo del tiempo.
  • GitHub – google/mcp — Repositorio MCP oficial de Google. Incluye servidores, ejemplos y documentación para integrar agentes y modelos con servicios externos como Google Workspace, BigQuery o Maps.
  • JustHTML is a fascinating example of vibe engineering in action: Simon Willison presenta JustHTML, un parseador de HTML5 en Python puro que pasa la colección completa de pruebas de html5lib. Lo describe como un ejemplo de vibe engineering: usar agentes de código junto con buenas pruebas y supervisión humana. El artículo destaca que este enfoque produce software de alta calidad, no solo código generado sin criterio.
  • I ported JustHTML from Python to JavaScript with Codex CLI and GPT-5.2 in 4.5 hours: Abundando en lo anterior, Willison cuenta cómo portó JustHTML de Python a JavaScript usando Codex CLI y GPT-5.2 en unas 4.5 horas. El texto reflexiona sobre el impacto de los LLM en el desarrollo de software y la confianza en el código generado.
  • Agent Skills: Willison, de nuevo, explica cómo los Agent Skills de Anthropic se han convertido en una especificación abierta y ligera para que los agentes puedan asumir y reutilizar habilidades. Aunque es una especificación pequeña y no enteramente definida, ya está siendo adoptada por herramientas como Cursor y VS Code. Se analiza su papel dentro del ecosistema más amplio de agentes y protocolos como MCP.

Nota final: A partir del 1 de enero de 2026, voy a comenzar a numerar las entradas consistentes en breves comentarios de artículos en su título. A ver hasta qué número llego antes de rendirme.

Sobre la relación entre precio y probabilidad en mercados de predicciones

Ahora que se popularizan los mercados de predicciones, merece la pena revisitar algunas ideas sobre la relación entre precios y probabilidades.

He citado varias veces esta página del blog de donde rescato la cita de Sam Savage

Mi padre, Leonard Jimmie Savage, fue un pionero en la defensa de las probabilidades subjetivas. Desde pequeño, me enseñó a pensar en la probabilidad de un evento como el dinero que estaría dispuesto a pagar por participar en una apuesta en la que ganaría cien dólares si ocurriese.

Números engañosos y algunos otros asuntos relacionados con la estadística (y la seudosociología del CIS)

¿Será cierto que gastaron 700 millones de libras en salvar la vida de un salmón cada diez años?

Hace un tiempo leí que los contribuyentes del RU invirtieron 700 millones de libras en salvar la vida de un salmón cada 10 años. Lo cual supera lo de los 100 millones de libras en salvar a unos murciélagos de ser atropellados por el tren chuchú.

Me preguntaba si sería cierto. ChatGPT me lo ha aclarado bastante:

Buena pregunta: la afirmación que mencionas es más o menos cierta, pero necesita contexto y matices. Esto es lo que sabemos sobre la situación (a finales de 2025) con Hinkley Point C, la nueva central nuclear del Reino Unido:

Construcción de intervalos de confianza para gráficos de calibración vía "bootstrap" y algunos asuntos más

Visualizing XGBoost Models with SHAP in Python: Feature Importance, Dependence, and Interaction Plots es otro tutorial sobre todas esas cosas. Pero a los interesados en la materia, les recomiendo la lectura sosegada de Interpretable Machine Learning.

Andrew Gelman discute el problema común de que los intervalos subjetivos del 50% suelen ser demasiado estrechos y que, como consecuencia, no capturan realmente el 50% de los resultados. Como solución, propone la siguiente estrategia: construir el intervalo intuitivo y luego ampliarlo por un factor fijo (p. ej., 1.5×) para mejorar la calibración. Aunque no es, obviamente, una solución completa, ofrece un punto de partida práctico para mejorar la calibración subjetiva de la incertidumbre.

Más sobre cómo obtener distribuciones uniformes dentro de triángulos

Pero hay otra forma de muestrear la distribución de Dirichlet (frase que no entenderán quienes no traigan esto leído):

  • Supóngase que tiene parámetros $(a_1, a_2, \dots, a_n)$.
  • Entonces se comienza muestreando una Beta de parámetros $(a_1, a_2 + \dots + a_n)$ para obtener $x_1$.
  • Y $x_j$ se obtiene a partir de una $B(a_j, a_{j + 1} + \dots + a_n)$ en el rango $[0, 1 - (x_0 + \dots + x_{j-1})]$.

Entonces, cuando hace una semana hacía

Notas varias sobre estadística y temas afines

  • Turning trig identities into Fibonacci identities muestra cómo ciertas identidades trigonométricas pueden transformarse de forma sistemática en identidades que involucran números de Fibonacci (y de Lucas). El motivo es que la estructura algebraica de las funciones trigonométricas involucra ciertas relaciones recurrentes, vinculándolas con los números de Fibonacci.

  • A quote from Nicholas Carlini sobre los LLMs y las extorsiones en la que describe cómo podrían ser las extorsiones del futuro. Ya no será “te robo los datos y me tienes que pagar para que te los devuelva” sino “usando un LLM sobre tus datos hemos encontrado indicios de ciertas actividades que, casi seguro, preferirías no fuesen conocidas por otros y nos tendrás que pagar para que no se las revelemos”.