Modelización

Cortos (sobre R)

I. El artículo Locally Adaptive Tree-Based Thresholding Using the treethresh Package in R describe una versión sofisticada de un truco que suelo usar para detecter cambios de régimen, etc., en series temporales: Quieres modelar una serie temporal Pero hay motivos para pensar que en realidad es la concatenación de varias series temporales distintas, con regímenes distintos. Quieres filtrar y quedarte con la representativa de hoy (y el corto plazo vendiero). Luego usas árboles más o menos como en el artículo.

Umbralistas vs antiumbralistas

Dentro de ese submundo de la estadística (¿o de la epidemiología?) que estudia qué es seguro y qué no y los riesgos para la salud de diversos productos o prácticas, existen dos familias de difícil reconciliación: los umbralistas y los antiumbralistas. Sus posiciones pueden ilustrarse gráficamente así: Las posiciones típicas de los umbralistas quedan resumidas aquí. Los antiumbralistas suelen ser más mediáticos (a la prensa le encantan afirmaciones del tipo: ¡el alcohol causa X desde la primera gota!

Vale, el modelo es y = f(x) + error y f es importante, pero lo que le da significado es y

Esta es una entrada sobre la semántica de los modelos que resume mi planteamiento en una discusión que tuve hace un tiempo en Twitter. La he buscado sin éxito, así que la resumo. Alguien —no recuerdo bien— quería explicar cómo hace AEMET las predicciones meteorológicas probabilísticas. Pero con un error de planteamiento. Venía a decir que una predicción meteorológica probabilística (p.e., la probabilidad de que mañana llueva en Madrid) no significa algo así como que de tantos días parecidos a los de hoy, al día siguiente llovió en tal proporción sino otra cosa distinta.

NannyML: ¿estima realmente la bondad de un modelo sin grupo de control?

Imaginemos que tenemos un modelo para resolver un problema de clasificación binaria. Supongamos, sin pérdida de generalidad (cámbiese lo que haya de cambiarse), que se trata de un árbol. Ese árbol se entrena con datos Madrid y define $K$ grupos (nodos terminales) $G_1, \dots, G_K$ donde la probabilidad de acertar —estimada usando algún conjunto de validación— es $p_1, \dots, p_K$. Además, se conoce el tamaño $n_i$ de los grupos $G_i$ en Madrid.

Tres metaprincipios estadísticos que se quedan en dos que se quedan en uno

Son: El principio de la información: la clave de un método estadístico no está basado en la filosofía subyacente o el razonamiento matemático, sino más bien la información que nos permite utilizar. El problema de la atribución, según el cual, el mérito de un análisis estadístico se lo lleva el procedimiento utilizado (por poner un ejemplo moderno, xgboost) y no quien lo aplicó. Y otro más que no acabo de entender del todo; o tal vez sí pero que no veo como encajar aquí.