Estadística

La interpretación puramente frecuentista de los intervalos de confianza es que el 95% de ellos contendrán el valor de interés en cuestión. Veamos qué nos cuenta al respecto la historia de la medición de la velocidad de la luz contemplada a través de la lectura de Determining the Speed of Light (1676-1983): An Internalist Study in the Sociology of Science primero en forma tabular (nota: en la fuente original hay una tabla más extensa de la que esta es resumen),

[Esta es una] Breve nota para difundir la corrección que realizado en mi [entrada del viernes](http://Comentarios varios sobre un artículo de El País sobre MOMO).

[Esta entrada ha sido enmendado con respecto a cómo fue publicada originalmente por los motivos que abajo se indican.]

El artículo es El Instituto de Salud Carlos III subestima las muertes de la segunda ola y los comentarios, estos:

El artículo trata un tema conocido de muchos, la infraestimación que hace el actual sistema MOMO de los excesos de mortalidad y cuyos motivos comenté extensamente el otro día. Dice, muy acertadamente:

Ayer leí este resumen de este artículo que propone y discute un algoritmo novedoso y basado en ciencia de datos para ordenar datos y hacerle la competencia a quicksort y demás. Reza y promete:

The results show that our approach yields an average 3.38x performance improvement over C++ STL sort, which is an optimized Quicksort hybrid, 1.49x improvement over sequential Radix Sort, and 5.54x improvement over a C++ implementation of Timsort, which is the default sorting function for Java and Python.

Uno de los problemas que encuentra uno al monitorizar series temporales en diversas escalas es la de encontrar una métrica de desviaciones de la normalidad (al menos en tanto que los sectores en los que trabajo no se pueblen de postmodernistas que comiencen a cuestionar qué es eso de la normalidad y a argumentar que si es un constructo tan injusto como inasequible) que cumpla una serie de requisitos:

El primero y fundamental, que detecte efectivamente desviaciones de la normalidad.
Que sea interpretable.
Que permita la comparación entre distintas series.

Estoy tentado a volver sobre el asunto de la mortalidad y de MOMO para ilustrarlo. Porque en proyectos de esa naturaleza hay que construir una métrica que nos diga si es igual de relevante (o de indicador de problemas subyacentes serios) un incremento de 20 defunciones en Madrid o de 2 en Teruel.

Hablo de MOMO de nuevo. Esta vez por culpa de la sobreestimación de las defunciones esperadas:

Para Periodistas y/o personas interesadas impacto #COVID19
👉MOMO disminuye artificialmente exceso fallecidos en 8000-10000 entre 11/3-9/5 y 21/6-HOY
👉Solo en Septiembre 1200-1600 exceso fallecidos menos sobre valor real
¿cómo lo hace?Aumentado concepto fallecidos esperados pic.twitter.com/DmfR1JI8ws
— buceadorestadi3 (@buceadorestadi3) October 16, 2020

¿Cómo estima MOMO las defunciones esperadas? Lo voy a explicar en tres pasos que se afinan secuencialmente.

Paso 1: Imaginemos que queremos realizar lo que algunos llaman el nowcast correspondiente al día de hoy, 18 de octubre de 2020 para alguna de las series que monitoriza MOMO. Podría tomar la mediana de los días 18 de octubre de los años 2019, 2018,… hasta, no sé, 2014.

Acabo de colgar el primer par de capítulos de mi libro Introducción a la probabilidad y la estadística para científicos de datos. No voy a adelantar nada aquí que no esté contenido en la introducción a la obra (AKA la introducción de la introducción). Pero baste este adelanto:

Las peculiaridades de su público explican algunas de las páginas que siguen. Por ejemplo, en ellas no se encontrará ni rigor, ni ortodoxia ni autocompletitud.

Esta entrada la hago por petición popular y para rematar de alguna manera lo que incoé hace unos días. Seré breve hasta lo telegráfico:

Tomo las observaciones con scorings más altos (en un árbol construido con ranger y cariño).
Veo cuáles son los árboles que les asignan scorings más altos.
Anoto las variables implicadas en las ramas por donde bajan las observaciones (1) en los árboles (2).
Creo una matriz positiva: filas = casos, columnas = variables, valores = conteos.
Y la descompongo (vía NMF). 6. Etc.

Es hasta paquetizable.

El principal asunto preambular en todo lo que tiene que ver con la explicación de modelos es ético (ético en la versión ñoña de la palabra, hay que dejar claro). Pero tiene sentido utilizar técnicas de explicación de modelos para aportarles valor añadido. En particular, un modelo puede proporcionar un determinado scoring, pero se le puede pedir más: se le puede pedir una descripción de los motivos que justifican ese scoring, particularísimanete, en los casos más interesantes: los valores más altos / bajos.

Una de las consencuencias del coronavirus es que vamos a tener que replantearnos lo que significa ajustar series temporales. Es decir, comenzar a ajustar series temporales y no repetir la consabida teoría que subyace a los modelos ARIMA simplemente porque es guay.

También tendremos que replantearnos qué hacer con los outliers que la pandemia va dejando tras de sí. Y tratar de hacerlo más elegantemente que cierta gente, por supuesto. En particular, habrá que ver cuál y cómo es el efecto de los outliers en determinados modelos. En particular, en esos en los que yo más trabajo últimamente, que son los de Poisson.

Estadística

Intervalos de confianza y la velocidad de la luz

Corrección en mi entrada "Comentarios varios sobre un artículo de El País sobre MOMO"

Comentarios varios sobre un artículo de El País sobre MOMO

¿Modelos para ordenar datos?

z-scores, p-scores y el problema de las áreas pequeñas

El "nowcast" de MOMO, por qué sobreestima en el año del coronavirus y qué pasará en los siguientes si no se remedia

"Introducción a la probabilidad y la estadística para científicos de datos": primera entrega

Explicación de los scorings de "ciertos" modelos

Explicación de modelos como procedimiento para aportar valor a un "scoring"

El modelo de Poisson es razonablemente robusto (pero atención a lo de "razonablemente")