Posts

Una cota superior para el nivel del AUC alcanzable en cierto tipo de modelos

Tengo dos entradas de hace unos meses sobre el AUC, esta y esta, en las que me voy a apoyar para resolver el problema de encontrar una cota superior realista para el AUC en cierto tipo de problemas.

Alguien dirá que el AUC tiene una cota superior, el 1, que se obtiene en el caso de ciencia ficción sabido de todos. De hecho, 7 o 15 son mejores cotas porque además de acotar, no confunden y hacen pensar que es realista alcanzarlas.

Unas cuantas notas sobre probabilidad

  • Monty Hall and generative modeling: Drawing the tree is the most important step: Un artículo que invita a pensar los problemas de probabilidad en términos generativos, en cómo se obtienen los resultados, ilustrándolo con el ejemplo clásico del problema de Monty Hall: en lugar de buscar directamente una respuesta, es conveniente dibujar el árbol de probabilidad para aclarar las suposiciones sobre cómo se generan los datos (o decisiones).
  • Why probability probably doesn’t exist (but it is useful to act like it does): Abunda sobre la vieja y manida cuestión sobre si la probabilidad existe objetivamente. Pero esquiva el meollo de la cuestión y se queda en que, como concepto, es extremadamente útil como herramienta para comprender y estudiar el mundo. Incluso si dudamos de la existencia real de la probabilidad, argumenta que es conveniente actuar como si existiera.
  • Yes, your single vote really can make a difference! (in Canada): Se refiere a un caso real ocurrido en Canadá en el que un distrito electoral fue decidido por un solo voto. Es la anécdota que algunos querrán esgrimir contra la categoría de la irracionalidad del voto individual.
  • En Distribution of correlation y en Is the skewness of the distribution of the empirical correlation coefficient asymptotically proportional to the correlation? se analiza un mismo problema, el de la distribución del coeficiente de correlación. Si se toman muestras con una correlación real predefinida y fija $\rho$, se obtiene una distribución asimétrica (necesariamente), cuya asimetría crece con la correlación $\rho$. Cuando las distribuciones son normales, existe solución analítica, pero incluso en ese caso parece más razonable simular.
  • Matt Levine cuenta una historia muy instructiva sobre lanzamientos de monedas en el mundo real:
    1. Entrevistaban a alguien para un trabajo en un hedge fund y le hicieron estudiar las matemáticas (esperanza, desviación estándar) de 1000 lanzamientos de monedas.
    2. Una vez hechos los cálculos, le preguntaron si aceptaría participar en un juego en el que ganaría $0.5 + \epsilon$ de tirar una moneda y que saliese cara.
    3. El tipo dijo que sí.
    4. El entrevistador le contestó: “no, respuesta incorrecta; si te lo ofrecemos, no deberías aceptarlo: tenemos un tipo ahí abajo que saca un 55% de caras”.

Discos duros, análisis de la supervivencia y bañeras evanescentes

En el análisis de la supervivencia, el concepto de riesgo está alineado con el general: a más riesgo, mayor probabilidad de evento (o deceso). El riesgo se entiende como función del tiempo, $r(t)$. Su gráfica permite comparar el riesgo en distintos periodos.

Si el riesgo es plano, la distribución temporal de los eventos es exponencial. Creo que solo sucede en los libros, sobre todo los que hablan de la radiactividad.

Unas cuantas notas sobre LLMs

  • What Is Man, That Thou Are Mindful Of Him? es un texto satírico en el que se le da la vuelta a los argumentos que se hacen contra la inteligencia de los LLMs y volviéndolos contra los errores de razonamiento que cometemos tan frecuentemente los humanos.
  • Why AI systems might never be secure discute la “tríada letal” (exposición a datos externos, acceso a información privada y capacidad de actuar externamente) que hace de los agentes a los que se confieren las anteriores facultades sistemas intrínsecamente inseguros.
  • En los materiales del curso Stanford CS221 Autumn 2025 de la U. de Stanford, se puede encontrar el párrafo siguiente:

¡Aprende las operaciones básicas de NumPy con un tutor de IA! Usa un chatbot (p.e., ChatGPT, Claude, Gemini o Stanford AI Playground) para aprender por ti mismo cómo realizar operaciones vectoriales y matriciales básicas con NumPy. Los tutores de IA pueden construir hoy en día tutoriales interactivos excepcionalmente buenos y este año, en CS221, estamos investigando cómo pueden ayudarte a aprender los fundamentos más interactivamente que a través de los ejercicios estáticos clásicos.

"Sobre las analogías en el derecho (y las matemáticas)" en el Almacén de Derecho

Diríase que por error, han aparecido publicadas unas líneas mías en el Almacén de Derecho. El artículo se titula Sobre las analogías en el derecho (y las matemáticas) y trata de varias cosas:

  • El problema de determinar cuándo un razonamiento analógico es fiable.
  • El problema anterior circunscrito al ámbito del derecho.
  • Cómo lo entiende un matemático que lo contempla desde afuera (y, por supuesto, desde la más absoluta ignorancia en la materia).

Es decir, no le va a interesar a nadie. Pero si te pica la curiosidad, no te prives de hacer clic en la cosa.

Unas cuantas notas sobre estadística

Uno de los metaprincipios de la construcción de modelos estadísticos es que la calidad de los modelos es función de la cantidad de información que hay en los datos de entrenamiento. No existe el bootstrap en el sentido etimológico del término: no puede uno levantarse en el aire tirando hacia arriba de los cordones de los zapatos. Pero al hilo de una noticia reciente, Gelman discute si añadir ruido a los datos permite reducir el sobreajuste. Además, en la discusión al respecto, alguien cita el artículo de 1995 Training with Noise is Equivalent to Tikhonov Regularization, una especie de penalización en el tamaño de los coeficientes al modo de la regresión ridge.

El mecanismo autocorrector de la ciencia (y el papel del cotilleo)

No sé mucho de filosofía de la ciencia, pero sí de informática. Así que, en cierto modo, soy como aquel tonto del martillo. Pero tal vez la analogía que presento debajo pueda servirle a alguien.

Existe un tipo de bases de datos distribuidas llamadas eventualmente consistentes. La promesa que hacen es que si cambias un dato, al cabo de un periodo de tiempo indeterminado, todas sus réplicas convergirán al mismo valor. En tanto, lecturas de nodos distintos pueden dar resultado distintos y contradictorios. Por ejemplo, los likes de una red social pueden estar almacenados en una de tales bases de datos y puede que un usuario en Tokio vea 34 likes a un vídeo y otro en Madrid, 35. Al cabo de un tiempo ambos acabarán viendo 35 (o, puede que 37 y 36: nada está garantizado al 100%).

Unas cuantas notas sobre tecnología

Hoy traigo a la atención de mis escasísimos pero selectos lectores una serie de notas que he recopilado en los últimos tiempos porque han llamado mi atención y que he arrejuntado alrededor de la genérica etiqueta de “tecnología”.

  • Una selección de diez librerías de Python para la creación de UIs. Una vez construí una aplicación de Android nativa que mostraba un dashboard en un móvil viejo 24/7. Sudé tinta. Hoy, casi seguro, lo haría en una fracción del tiempo.
  • En Extrapolating quantum factoring se cuenta cómo en 2001 un ordenador cuántico podía factorizar el número 15 y, en 2012, el 21. Luego extrapola, pero eso es lo de menos.
  • Ahora que está de moda medir superficies en “campos de fútbol” no sorprenderá tanto que se utilicen los “litros de agua hirviendo” como indicador de la fortaleza de una clave criptográfica.
  • The Electrotech Revolution: Some insights into a new way of thinking about the transition muestra una visión optimista del futuro en el que la energía es abundante y barata. La parte más interesante es esa en la que se discute cuánta de la llamada energía primaria actual acaba realmente creando trabajo útil (en lugar de, por ejemplo, calor disipado tontamente en la atmósfera).
  • The beauty of batteries es otro artículo optimista que discute cómo el despliegue masivo de baterías puede solucionar muchos de los problemas de nuestros sistemas de distribución eléctrica. Por ejemplo, una estación de energía renovable —y, por lo tanto, de generación irregular— remota necesitaría una conexión eléctrica de menor capacidad (y, por lo tanto mucho más económica) si dispusiese de baterías que le permitiesen evacuar la energía de manera constante a lo largo del día. Muchas ampliaciones de capacidad en determinadas líneas podrían evitarse si, con el concurso de las baterías, la energía pudiera distribuirse de manera mucho más homogénea a lo largo del tiempo. En términos estadísticos, las baterías son dispositivos que transforman los extremos en medias.
  • Tras la electricidad, el agua. How Does the US Use Water? nos habla de esa infraestructura y tecnología que tantas veces damos simplemente por supuesto y en la que apenas paramos mientes.

La regresión logística en sklearn no es la regresión logística sino otra cosa: el problema oculto

La semana pasada escribí una entrada que constaba únicamente de la frase

“La regresión logística en sklearn no es la regresión logística sino otra cosa.”

repetida muchas veces. El problema es que la implementación que hace scikit-learn de la regresión logística usa, por defecto, l2-regularization, es decir, ridge.

Lo cual, en principio, es preferible a la alternativa, es decir, no usar regularización en absoluto; pero usar regularización implica una serie de consideraciones y ajustes por parte del usuario que no siempre se tienen en cuenta.

La regresión logística en sklearn no es la regresión logística sino otra cosa

La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa.