Una herramienta para el análisis no paramétrico de series temporales

R

Sí, es un ejemplar de mi colección de rarezas estadísticas, técnicas que no entran dentro del currículo estándar pero que pudieran resultar útiles en algún momento, para algún caso particular.

Hoy, perfiles matriciales para series temporales, una técnica que sirve esencialmente, para identificar formas que se repiten en series temporales, como

Entiendo además que, como consecuencia, también para señalar aquellos ciclos en que se produzcan perfiles anómalos, para su evaluación. Pero dejo que consultéis la información en, por ejemplo, aquí y aquí.

Charla sobre cosas que no te han contado sobre le modelo de Poisson (y de paso, el logístico)

Este es un anuncio de una charla que daré este viernes (2020-09-18) dentro del congreso virtual EncuentRos en la fase R. Ni que decir tiene que los detalles logísticos pueden consultarse en el enlace anterior.

Hablaré de cuestiones relativas al modelo de Possion (gran parte de las cuales pueden trasladarse también al logístico) de las que se habla poco y sobre las que la teoría que uno tropieza por ahí no es del todo clara pero que se manifiestan claramente en datos como los de la monitorización de la mortalidad, que será discutida también de pasada.

Infradispersión en la logística

Le he dado muchas vueltas en estos últimos tiempos al asunto de la sobredispersión, particularmente en dos tipos de modelos: Poisson y logístico. Así que, aunque solo sea por proximidad semántica, se me quedan pegados ejemplos y casos de ese fenómeno mucho menos frecuente que es el de la infradispersión.

Un ejemplo ilustrativo del fenómeno que se me ocurrió el otro día era

pero hace nada, ese señor lleno de paz y amor que es Putin, nos ha regalado otro:

Recordatorio: no olvidéis restar los fallecimientos atribuibles al calor en la estimación del efecto de la "segunda ola"

La estimación de la mortalidad atribuible a la gripe estacional (que no, que no se hace consultando la causa de muerte que consignan los médicos medio al buen tuntún por motivos administrativos y que luego recoge el INE, como parece que dan a entender estos beneméritos verificadores para la confusión de quienes den su palabra por buena) tiene una complicación sustancial: ocurre simultánea y co-casualmente con el frío, que incrementa las defunciones por motivos otros. En términos estadísticos, es un problema de práctica colinealidad entre dos regresores cuyos coeficientes miden el impacto de la gripe y el frío respectivamente.

De "la fiebre amarilla de Cádiz y pueblos comarcanos" de 1800

Esta entrada está motivada, en última instancia, por la lectura del libro (muy recomendable, por otra parte), The Art of Statistics: Learning From Data, de David Spiegelhalter. Sus muchas virtudes hacen, por contraste, que relumbre particularmente un defecto característico de toda esa creciente literatura sobre el tema: su aburridor anglocentrismo. Que si el médico devenido asesino en serie, que si los cirujanos de Bristol, que si el manidísimo John Snow (que esta vez, en este libro, de casualidad, no aparece),…

Distribuciones (¿de renta? ¿solo de renta?) a partir de histogramas

En el primer número de la novísima revista Spanish Journal of Statistics aparece un artículo con un título tentador: Recovering income distributions from aggregated data via micro-simulations.

Es decir, un artículo que nos puede permitir, por ejemplo, muestrear lo que la AEAT llama rendimientos a partir de lo que publica (aquí):

Uno de los métodos de los que sostienen el ignominioso a mí me funciona está basado en el modelo

Este vídeo es un resumen en 15 minutos de años de entradas de este blog, solo que contado todo al revés

El vídeo es este:

  • Si tomas cada frase y le pones un NO delante, tienes un esquema de un sílabo para un curso de capacitación estadística básica.
  • Por algún motivo, cuando vi el vídeo por primera vez, la única palabra que me venía a la mente era: pornográfico.
  • Para conocer más sobre el mundo al que se refiere el vídeo, recomiendo El oscuro mundo de los ’tipsters’, los pronosticadores que ejercen de gancho de las casas de apuestas (un artículo al que solo le pongo el pero de haber sido redactado bajo la ilusión del solucionismo regulatorio).
  • Hay un filón de trabajo cuantitativo y pro bono que podría hacerse (atención al uso del impersonal) al respecto para contrarrestar (¿es posible?) el impacto de toda esta gente.
  • La gente está fatal.

Vedlo. Es alucinante.

Más sobre variables instrumentales con R

R

[El título de esta entrada tiene un + delante porque ya escribí sobre el asunto tiempo atrás.]

Con la excusa de la reciente publicación del paquete ivreg (para el ajuste de modelos con variables instrumentales, por si el contexto no lo hace evidente), he mirado a ver quién estaba construyendo y ajustando modelos generativos menos triviales que los míos (véase el enlace anterior) para que quede más claro de qué va la cosa. Porque la explicación típica, que adopta formas no muy distintas de

Muchos cocineros con la misma receta...

[Iba a guardar un enlace a este artículo entre mis notas, pero, qué demonios, lo dejo aquí, público, porque así lo encuentro yo y lo encontramos todos.]

¿Qué pasa/puede llegar a pasar si muchos científicos de datos analizan los mismos datos en busca de una respuesta a la misma cuestión? Una de las posibles respuestas está en Many Analysts, One Data Set: Making Transparent How Variations in Analytic Choices Affect Results. Y por evitaros un click,

El pozo aristotélico

[Hoy voy a tratar ciertas reflexiones suscitadas por el artículo más relevante que he leído este verano.]

La física aristotélica tiene mala prensa. Sin embargo, Carlo Rovelli, en _Aristotle’s Physics: a Physicist’s Look _ofrece una visión alternativa y más optimista de la generalizada, que resume así:

I show that Aristotelian physics is a correct and non-intuitive approximation of Newtonian physics in the suitable domain (motion in fluids), in the same technical sense in which Newton theory is an approximation of Einstein’s theory. Aristotelian physics lasted long not because it became dogma, but because it is a very good empirically grounded theory. The observation suggests some general considerations on inter-theoretical relations.

Contrariamente a lo que creía recordar, "Hot deck" != LOCF

Imputación (que es algo en lo que muy a regañadientes estoy trabajando estos días).

Si de verdad tienes que imputar datos en una tabla (y solo en ese caso), solo hay un criterio: construye un modelo para predecir los valores faltantes en función del resto y reemplaza el NA por la su predicción.

El modelo puede ser tan tonto como

lm(my_col ~ 1, na.rm = T)

que resulta en la popular estrategia de reemplazar los NAs por la media del resto de las observaciones. Cambiando lm por otras cosas funciones más molonas y la fórmula por otras más complejas en que intervengan otras columnas se obtienen métodos más potentes. Se pueden usar GAMs (como en mtsdi) o random forests (como en missForest), pero la idea está clara. Es solo la naturaleza del problema la que nos invita a decantarnos por una u otra opción.

Hoy sí, sobre tetas y culos (e Instagram, como excipiente)

Hoy voy a aprovechar una excusa peregrina para hablar de lo que por algún motivo se me antoja imperiosamente, que son tetas y culos. Que (este pronombre es un puntero a excusa) es

[Nota: aquí quise incrustar un tuit de Analía Plaza que, aparentemente, fue borrado por su autora meses después.]

Lo primero que tengo que decir al respecto es que las tetas y culos que asocia al Cabo de Gata el Instagram de quienqueira que haya tomado esas capturas son prácticamente las mismas que en el mío (y otro día os cuento por qué tengo Instagram, porque ni lo sabéis ni os lo podéis imaginar), a saber,

¿CDO de, p.e., España? Nah...

Dizque hace falta un CDO (chief data officer) de esa parte de España que es el estado español (aunque no sabemos si con autoridad solo dentro de la administración central o también en sus tentáculos semiautónomos) porque es una figura con creciente importancia en las empresas y con un rol muy definido en ellas.

Aquí voy a argumentar a la contra introduciendo un elemento de sospecha en esa aparentemente sencilla y automática traslación de roles entre la empresa privada y una cosa tan pantagruélica y aparatosa como la administración de un estado. Al menos, en lo que concierne a un CDO con poderes ejecutivos, es decir, con potestad para pedir que algo sea hecho y que, efectivamente, se haga.