Modelización

Por motivos estrictamente laborales, he pasado estos días algunas horas navegando por la llamada dark web. El motivo es fácil de explicar:

Trabajo para una empresa que tiene un problema creciente de pérdidas por fraude digital (¿cuál no?).
Nuestro equipo está encargado, entre otras cosas, de minimizar su impacto detectándolo lo antes posible.
Como somos todos gente honrada y sin malicia, vamos un poco a ciegas: ¿cuáles son realmente los patrones que buscamos?

Hay dos maneras de afrontar el problema:

Muchos fenómenos tienen una periodicidad intrínsecamente semanal (p.e., el tráfico). Eso puede motivar el uso la semana como unidad temporal de referencia en determinados análisis en lugar del mes o el día.

Existe gente que tal vez no esté al tanto de que existe un estándar ISO para definir y representar las semanas sin ambigüedad, el ISO 8601. Sus principales características son

Las isosemanas comienzan el lunes y terminan el domingo.
La primera isosemana del año es la que contiene el primer jueves del año.
Un año contiene típicamente 52 isosemanas, aunque algunos (entre ellos, 1903, 1908, 1914, 1920, 1925, 1931, 1936, 1942, 1948, 1953, 1959, 1964, 1970, 1976, 1981, 1987, 1992, 1998, 2004, 2009, 2015, 2020, 2026, 2032, 2037, 2043, 2048, 2054, 2060, 2065, 2071, 2076, 2082, 2088, 2093, 2099) contienen 53.
Las isosemanas se representan con el formato YYYY-Www (e.g., 2025-W10 para la décima semana de 2025)

Hoy en día no merece la pena que indique cómo calcular ni manipular isosemanas en los lenguajes de programación más usuales: casi cualquier LLM lo sabe y lo puede ayudar a uno a crear funciones como

Tiene Ripley, el gran Ripley, un artículo de hace 20 años titulado Selecting Amongst Large Classes of Models donde discute la cuestión —la del título de esta entrada— y dice:

Deberíamos preguntarnos por qué queremos seleccionar un modelo. Parece ser un error extendido que la selección de modelos trata de “seleccionar el mejor modelo”. Si buscamos un modelo explicativo, deberíamos tener presente que puede haber varios modelos explicativos (aproximadamente) igual de buenos: lo aprendí de David Cox cuando era un profesor novato en el Imperial College tras haber hecho muchas selecciones informales de modelos en problemas aplicados en los que me hubiera resultado útil haber podido presentar soluciones alternativas.

Creo que vamos a oír hablar bastante en los próximos meses sobre el uso de algoritmos en la administración. Civio abrió fuego hace casi un año con el caso de BOSCO y vuelve a la carga con Las prisiones españolas usan un algoritmo sin actualizar desde 1993 para decidir sobre permisos de salida, un artículo que permite muchas lecturas y algunas de ellas, desafortunadas.

La noticia anterior da pie, sin duda, a

Sobre catboost

Todavía no he usado catboost en ningún proyecto serio, aunque tiene la pinta de ser la evolución más sofisticada de todos las variantes existentes del boosting. Ya escribí al respecto aquí y hoy traigo dos enlaces adicionales de José Luis Cañadas, un usuario muy entusiasta. Una sobre el tratamiento de las variables categóricas y otro sobre la regresión por cuantiles.

Ajuste bayesiano de un modelo con censura

Lo presenta el maestro Juan Orduz aquí que, como todos, no para mientes al hecho no totalmente evidente de que la verosimilitud de una densidad mixta (continua y discreta a un tiempo) es la que se postula que es (véase cómo arranca la sección Censored Gamma Model).

Hay mucha teoría sobre interpretación de modelos (estadísticos, de machine learning y, ahora, de deep learning). Hay muchos métodos y herramientas para ello; de algunas he hablado en el pasado por aquí. Hay también, mucha demanda de ello, en gran medida por motivos legales y regulatorios. Pero en toda la literatura al respecto apenas nadie se toma la molestia de advertir que hay un elefante en el salón.

Este elefante tiene que ver con la imposibilidad material de la tarea en cuestión. Todo lo que se hace, como se discutirá a continuación, es aplicar meros paños calientes, hacer como que se hace, pero evadiendo el meollo (de cuatro toneladas, grandes orejas y trompa descomunal).

I.

El artículo Locally Adaptive Tree-Based Thresholding Using the treethresh Package in R describe una versión sofisticada de un truco que suelo usar para detecter cambios de régimen, etc., en series temporales:

Quieres modelar una serie temporal
Pero hay motivos para pensar que en realidad es la concatenación de varias series temporales distintas, con regímenes distintos.
Quieres filtrar y quedarte con la representativa de hoy (y el corto plazo vendiero).
Luego usas árboles más o menos como en el artículo.

II.

Lo que se cuenta aquí me gusta y no me gusta:

Dentro de ese submundo de la estadística (¿o de la epidemiología?) que estudia qué es seguro y qué no y los riesgos para la salud de diversos productos o prácticas, existen dos familias de difícil reconciliación: los umbralistas y los antiumbralistas.

Sus posiciones pueden ilustrarse gráficamente así:

Las posiciones típicas de los umbralistas quedan resumidas aquí.

Los antiumbralistas suelen ser más mediáticos (a la prensa le encantan afirmaciones del tipo: ¡el alcohol causa X desde la primera gota!) y tienen más hinchada en las clases populares.

Esta es una entrada sobre la semántica de los modelos que resume mi planteamiento en una discusión que tuve hace un tiempo en Twitter. La he buscado sin éxito, así que la resumo. Alguien —no recuerdo bien— quería explicar cómo hace AEMET las predicciones meteorológicas probabilísticas. Pero con un error de planteamiento. Venía a decir que una predicción meteorológica probabilística (p.e., la probabilidad de que mañana llueva en Madrid) no significa algo así como que de tantos días parecidos a los de hoy, al día siguiente llovió en tal proporción sino otra cosa distinta.

Imaginemos que tenemos un modelo para resolver un problema de clasificación binaria. Supongamos, sin pérdida de generalidad (cámbiese lo que haya de cambiarse), que se trata de un árbol.

Ese árbol se entrena con datos Madrid y define $K$ grupos (nodos terminales) $G_1, \dots, G_K$ donde la probabilidad de acertar —estimada usando algún conjunto de validación— es $p_1, \dots, p_K$. Además, se conoce el tamaño $n_i$ de los grupos $G_i$ en Madrid.

Modelización

Un paseo por la Dark Web que os haría llorar a los más

Isosemanas

¿Por qué seleccionar "el mejor" modelo?

GPT en 500 líneas de SQL y algunos asuntos más

Seis asuntos sobre modelización estadística, incluyendo un problema que no parece del todo trivial

Sobre catboost

Ajuste bayesiano de un modelo con censura

Interpretación de modelos: el elefante en el salón

Cortos (sobre R)

I.

II.

Umbralistas vs antiumbralistas

Vale, el modelo es y = f(x) + error y f es importante, pero lo que le da significado es y

NannyML: ¿estima realmente la bondad de un modelo sin grupo de control?