Posts

Anomalías, cantidad de información e "isolation forests"

Identificar a un tipo raro es sencillo: el que lleva tatuada a su madre en la frente. Identificar a un tipo normal es más complicado: altura… normal, pelo… ¿moreno? Es… como… normal, ni gordo ni flaco…

Identificar transacciones de tarjeta normales es prolijo: gasta más o menos como todos en supermercados, un poco más que la media en restaurantes, no tiene transacciones de gasolineras… Identificar transacciones fraudulentas es (o puede ser) sencillo: gasta miles de euros en las farmacias de los aeropuertos y nada en otros sitios.

Intervalos de confianza y la velocidad de la luz

La interpretación puramente frecuentista de los intervalos de confianza es que el 95% de ellos contendrán el valor de interés en cuestión. Veamos qué nos cuenta al respecto la historia de la medición de la velocidad de la luz contemplada a través de la lectura de Determining the Speed of Light (1676-1983): An Internalist Study in the Sociology of Science primero en forma tabular (nota: en la fuente original hay una tabla más extensa de la que esta es resumen),

Comentarios varios sobre un artículo de El País sobre MOMO

[Esta entrada ha sido enmendado con respecto a cómo fue publicada originalmente por los motivos que abajo se indican.]

El artículo es El Instituto de Salud Carlos III subestima las muertes de la segunda ola y los comentarios, estos:

El artículo trata un tema conocido de muchos, la infraestimación que hace el actual sistema MOMO de los excesos de mortalidad y cuyos motivos comenté extensamente el otro día. Dice, muy acertadamente:

¿Modelos para ordenar datos?

Ayer leí este resumen de este artículo que propone y discute un algoritmo novedoso y basado en ciencia de datos para ordenar datos y hacerle la competencia a quicksort y demás. Reza y promete:

The results show that our approach yields an average 3.38x performance improvement over C++ STL sort, which is an optimized Quicksort hybrid, 1.49x improvement over sequential Radix Sort, and 5.54x improvement over a C++ implementation of Timsort, which is the default sorting function for Java and Python.

z-scores, p-scores y el problema de las áreas pequeñas

Uno de los problemas que encuentra uno al monitorizar series temporales en diversas escalas es la de encontrar una métrica de desviaciones de la normalidad (al menos en tanto que los sectores en los que trabajo no se pueblen de postmodernistas que comiencen a cuestionar qué es eso de la normalidad y a argumentar que si es un constructo tan injusto como inasequible) que cumpla una serie de requisitos:

  • El primero y fundamental, que detecte efectivamente desviaciones de la normalidad.
  • Que sea interpretable.
  • Que permita la comparación entre distintas series.

Estoy tentado a volver sobre el asunto de la mortalidad y de MOMO para ilustrarlo. Porque en proyectos de esa naturaleza hay que construir una métrica que nos diga si es igual de relevante (o de indicador de problemas subyacentes serios) un incremento de 20 defunciones en Madrid o de 2 en Teruel.

¿Cómo asignar probabilidades? Simetría y universalidad

En los minutos 18 y unos pocos de los siguientes de

se plantea el problema de cómo asignar probabilidades a eventos y el conferenciante, Martin Hairer, discute (¿con ánimo de exhaustividad?) dos: simetría y universalidad.

_[Nota: la discusión es paralela y muy similar a una que aparece en una sección aún no publicada de mi libro de probabilidad y estadística. La relación causal entre ambos hechos es bastante problemática.] _

El "nowcast" de MOMO, por qué sobreestima en el año del coronavirus y qué pasará en los siguientes si no se remedia

Hablo de MOMO de nuevo. Esta vez por culpa de la sobreestimación de las defunciones esperadas:

¿Cómo estima MOMO las defunciones esperadas? Lo voy a explicar en tres pasos que se afinan secuencialmente.

Paso 1: Imaginemos que queremos realizar lo que algunos llaman el nowcast correspondiente al día de hoy, 18 de octubre de 2020 para alguna de las series que monitoriza MOMO. Podría tomar la mediana de los días 18 de octubre de los años 2019, 2018,… hasta, no sé, 2014.

Con un poco de imaginación, la teoría lo aguanta todo

Si no, oigamos a Vitruvio explicándonos todo sobre la cal:

La causa de tomar la cal con el agua y arena tanta unión parece ser, porque las piedras están, como los otros cuerpos, compuestas de los quatro elementos: las que tienen mayor porción de ayre son tiernas; las que tienen mas de agua son suaves por el húmido ; las que mas tierra son duras; y las de mas fuego quebradizas. Si qualesquiera de estas piedras sin cocer se quebrantasen y moliesen, y con arena y agua se hiciese mortero para edificar, ni travaria, ni podría sostener el muro ; pero penetradas del fuego en el horno, pierden lo rígido de su solidez primera; y consumidas y exhaladas sus fuerzas, quedan esponjosas, abiertas y vacías de poro. Extraídos de ellas el agua y ayre, y quedando el fuego, ahogado éste en otra agua antes que se exhale, toma vigor y fuerza, y penetrando el húmido en lo vacío de los poros, se enciende en hervores, hasta que salido todo el calor que tenia antes, se enfria. Esta es la causa de que las piedras después de cocidas pesan menos que antes, aunque queden del mismo volumen; y hecha la prueba, se las halla una tercera parte menos de peso. Ahora pues, teniendo la cal el poro abierto, arrebata á sí la arena que se le mezcla, uniéndose mutuamente; y abrazando después ambas la piedra al secarse, hacen todos un cuerpo, de que resulta la solidez de los edificios.

"Introducción a la probabilidad y la estadística para científicos de datos": primera entrega

Acabo de colgar el primer par de capítulos de mi libro Introducción a la probabilidad y la estadística para científicos de datos. No voy a adelantar nada aquí que no esté contenido en la introducción a la obra (AKA la introducción de la introducción). Pero baste este adelanto:

Las peculiaridades de su público explican algunas de las páginas que siguen. Por ejemplo, en ellas no se encontrará ni rigor, ni ortodoxia ni autocompletitud.