Posts

Más sobre la relación entre la dispersión de las probabilidades y el AUC en modelos bien calibrados

Esta entrada está relacionada —aunque no es estrictamente una continuación— de la que escribí hace una semana sobre el mismo asunto.

Se vuelve a partir de lo siguiente: un modelo de clasificación binaria bien calibrado. Eso significa que si el modelo predice $p$ para el sujeto $i$, entonces $Y_i \sim B(p)$.

Supongamos que tenemos una población dada, aplicamos el modelo y obtenemos una distribución $f(p)$ para las probabilidades predichas. Entonces, la distribución de:

Una serie de apuntes sobre modelos estadísticos

Andrew Gelman se pregunta periódicamente por la obsesión generalizada en involucrar a Jesucristo con los modelos lineales. Versión corta: si el año se modela tal cual (p.e., 2025), el término independiente nos aporta información sobre el hipotético estado de las cosas en el año en el que nació. En general, es conveniente parametrizar las variables de manera que el término independiente de un GLM tenga un mínimo contenido informativo.

Un artículo muy raro de Manuel Hidalgo en NadaEsGratis que incluye todas las palabras que hacen que dejes de leer algo: cuántico, entropía, desorden (como sinónimo de incertidumbre), etc. Lo relevante de la cosa no parece ser tanto lo que cuenta (ya sabemos que hay incertidumbre en el mundo, ya sabemos que nuestra visión del mundo está marcada por la incertidumbre, etc.) sino poder constatar que a ciertos segmentos de la población hay que recordarles estas cuestiones y que puede que incluso se sorprendan cuando se las cuentan.

Sobre la relación entre la dispersión de las probabilidades y el AUC en modelos bien calibrados

Supongamos que estamos construyendo un modelo de clasificación binaria. Supongamos que está bien calibrado, es decir, que cuando predice una probabilidad $p$ de éxito para un sujeto $i$, entonces es cierto que $Y_i \sim \text{Bernoulli(p)}$.

Por otro lado, pensemos en el AUC, que es muchas cosas, pero entre ellas,

$$ AUC=Pr(p_i >p_j | Y_i =1,Y_j =0),$$

es decir la probabilidad de que, tomando dos sujetos al azar, uno positivo, el $i$ y otro negativo, el $j$, $p_i > p_j$.

Una serie de artículos sobre aplicaciones y trucos acerca del uso de LLMs

Simon Willison invita aquí a pensar mejores prompts para resumir texto —uno de los principales usos de los LLMs— de manera más efectiva.

Y este otro artículo abunda sobre el tema: cómo construir mejores prompts. El problema que tiene es el de siempre: solo puedes entretenerte en pulir los prompts cuando esperas obtener mucho valor de la respuesta. Para el uso rápido y cotidiano, continuaremos con nuestras heurísticas frugales.

Dos usuarios avanzados de los LLMs desvelan sus algunos trucos:

Multiplicidad de modelos, multiplicidad de explicaciones: algunas consecuencias

Hay cosas obvias en las que uno no repara hasta que ve que otro les apunta con el dedo y les da un nombre. Luego no deja de verlas por doquier.

Una de ellas y que ahora encuentro en todas partes es la de la diversidad de explicaciones. Escribí sobre ello el otro día. Decía allí (citando un artículo de B. Ripley):

Si buscamos un modelo explicativo, deberíamos tener presente que puede haber varios modelos explicativos (aproximadamente) igual de buenos: lo aprendí […] tras haber hecho muchas selecciones informales de modelos en problemas aplicados en los que me hubiera resultado útil haber podido presentar soluciones alternativas.

¿Está empeorando la calidad de las estadísticas públicas? (y algunos asuntos más)

En Faulty Speedometers se discute el creciente problema de calidad en determinadas estadísticas de la ONS (el INE británico). Acerca de la EPA de allá, dice:

La caída de la tasa de respuesta no ha sido uniforme en todas las categorías demográficas y la ONS se ha visto obligada a aplicar cada vez más hipótesis y datos imputados a la hora de estimar el número de empleados, la tasa de paro y la tasa de inactividad. El resultado han sido estadísticas oficiales del mercado de trabajo que parecen ser simplemente incorrectas.

Si la incertidumbre existe solamente en la mente, entonces, ¿por qué...?

He escrito ya alguna vez sobre esa especie de que la incertidumbre y el azar no existen en el mundo. Que esos conceptos —junto con la teoría de la probabilidad que los sistematiza— son solo una construcción de la mente y existen solamente en ella. Que si no fuésemos tan perezosos, podríamos recopilar todas las causas y deducir con precisión milimétrica el futuro (como hacen Diaconis y compañía en el artículo que traté aquí con los lanzamientos de monedas), y advertiríamos que en el mundo real solo hay certidumbres. Etc.

Un par de paradojas de la teoría de la probabilidad y algunos asuntos más

Comienzo la entrada de hoy con un enlace al muy denso Interpretations of probability, en la Enciclopedia de Filosofía de Stanford que, admito, no será del interés de la mayoría.

Podría llegar a decirse —aunque no me atreveré a tanto— que en toda disciplina intelectual tiene que haber paradojas porque de otra manera, sería indistinguible del uso sistemático del sentido común. Así que hoy traigo a colación este análisis de un caso particular de la paradoja de Berkson (que se añade a las ocasiones en las que ya me he referido a ella) y este otro sobre la de Lindley. La primera tiene que ver con la correlación que aparece entre dos variables aleatorias independientes cuando de repente observamos información concomitante; la segunda, con los test de hipótesis (asunto del que, por fortuna, me he mantenido alejado durante largo tiempo).

Un año más, llega el día internacional de la copia de seguridad

Hoy, como cada 31 de marzo, se celebra el día de la copia de seguridad.

Así que ya sabéis qué hacer:

Coda

Revisando mis archivos, vi que ya hablé del asunto en 2015, 2017, 2023 y 2024.

Otra coda

Creo que alguna vez lo comenté, pero uso syncthing para mantener sincronizado (y replicado) mi contenido más importante entre mi ordenador de sobremesa, el portátil y el servidor doméstico (que está encendido 24/7).

Ahora el blog tiene una lista de entradas relacionadas construida usando LLMs

He implementado las entradas relacionadas en el blog. Dos entradas están relacionadas cuando el producto escalar de sus embeddings es alto.

Así que en primer lugar he asociado a cada entrada un embedding. Las entradas son ficheros de markdown con un preámbulo en yaml. Los embeddings no están creados directamente sobre el texto bruto de la entrada sino sobre la entrada y algunos de los elementos, no todos, del preámbulo.