Posterioris informativas (o más bien, cuando te informan de cuál es la posteriori)

El otro día, en la ronda de preguntas tras mi charla en la Universidad de Zaragoza, después de mi enconada defensa de las prioris informativas, alguien apostilló muy agudamente: si tenemos prioris muy informativas, ¿para qué queremos datos?

Eso, ¿para qué queremos datos?

El otro día me lo explicó otro amigo en las siguientes líneas que reproduzco con las inexactitudes achacables a memoria anaidética:

En una empresa, un consejero tiene un proyecto, una idea. La tiene que defender frente al CEO y el resto del consejo. Ahí entra la ciencia de datos: alguien presenta un documento con tablas y gráficos que le dan un sostén basado en datos [a aquellas ideas que son previas a los datos].

Estadística descriptiva y teoría de la decisión

Agradezco mucho el comentario de José Luis a mi entrada/pregunta ¿Existiría algún caso de uso de la estadística que no sea materia prima para la toma de decisiones informadas?. Dice:

¿Y la mera estadística descriptiva que aparece en la investigación científica? Distribución de tallas de especies no conerciales, dinámicas de población, descripciones ecológicas….?

Y creo que es una aportación tan valiosa que merece toda una entrada más que una mera contestación: la pregunta que plantea es tan legítima y como fructífera y fomentadora de debate. Aunque creo, y de aquí la entrada, la objeción no se tiene en pie.

Guasa tiene que habiendo tanto economista por ahí tenga yo que escribir esta cosa hoy

Tiene que ver mi entrada de hoy con Why did Big Data fail Clinton?, que trata de lo que el título indica: toda la tontería que se ha escrito de Cambridge Analytica. Enlazo todo lo demás, por otro lado, con el nóbel de economía de 2016 (Hart y otro).

¿Por qué? De acuerdo con lo que muchos han escrito, una empresa de siete friquis en el Reino Unido con acceso a los likes de 50000 donnadies y poco más tienen poder para quitar y poner reyes con unos cuantos clicks. Poco menos que en sus manos está el hacer periclitar, si no occidente entero, al menos, sí sus democracias. (Que es un relato sumamente interesado: ¿cómo justificar, si no, todo el tinglado de la GDPR?)

Los extraños números de los muertos en carretera por accidente

Escribo esta entrada con cierta prevención porque soy consciente de que dan pábulo a determinadas teorías conspiranoicas de las que soy declarado enemigo. Pero es que los números de muertos en carretera por accidente en España en los últimos años,

(extraídos de aquí) dan que pensar: la varianza de las observaciones correspondientes a los años 2013, 2014 y 2015 es muy baja, demasiado baja. Al menos, si se da como bueno un modelo de Poisson para modelar esos conteos.

Evolución de la resistencia al calor

En 2003 hubo una ola de calor de tal magnitud que el ministerio de sanidad puso en marcha un plan especial de seguimiento, prevención, monitorización, etc. de ese tipo de fenómenos.

La hipótesis que me propongo explorar aquí es la siguiente: que gracias a la prevención, a la popularización del aire acondicionado, a la mejora del nivel de vida, etc. el impacto del calor (en forma de olas) sobre la mortalidad decrece en el tiempo. Casi ninguno de vosotros podéis estudiarla, pero yo sí. No os puedo contar los detalles pero sí las líneas generales del estudio.

Prioris informativas: un ejemplo

Imagina que tienes que generar (reitero: generar) datos compatibles con el siguiente modelo:

  • Tienes n sujetos a los que se proporciona un remedio para dormir en distintas dosis (conocidas) en distintos días.
  • El número adicional de horas que duerme cada sujeto es lineal con una pendiente que depende de la dosis (una serie de dosis fijas).
  • Esa recta tiene un término independiente (el número de horas que duerme el sujeto con una dosis igual a cero del remedio).

Argumento que para generar los términos independientes usarías algo así como una normal de media igual a 8 horas. Seguro que usarías alguna otra distribución razonable para las pendientes (p.e., que prohibiese que con dosis pequeñas se durmiese, p.e., 80 horas).

Un generador de datos sintéticos para proteger la privacidad de los microdatados

DataSynthesizer (véase también el correspondiente artículo) es un programa en Python que:

  1. Toma una tabla de datos (microdatos, de hecho) que contiene información confidencial.
  2. Genera otra aleatoria pero que conserva (¿los conservará?) la estructura básica de la información subyacente (conteos, correlaciones, etc.).

Está pensado para poder realizar el análisis estadístico de (determinados) datos sin verlos propiamente.

Particularmente interesante es el algoritmo para preservar la correlación entre columnas.

[Nota: he aprovechado la entrada para acuñar el neologismo microdatado para referirme a quien figura en un fichero de microdatos.]

¿Existirá algún caso de uso de la estadística que no sea materia prima para la toma de decisiones informadas?

Estoy escribiendo unas notas muy punk sobre estadística. Desde cero. Hasta la luna. Pero que no se parecen en absoluto a nada de lo que he visto habitualmente escrito sobre la materia. Uno de sus capítulos, el primero, habla en general de la estadística. Abre con

Statistics is a technology concerned with stochastic data generating systems (SDGS) for the purpose of making informed decisions.

y el resto del capítulo desarrolla cada elemento de la frase (sí, qué es una tecnología, etc.). Sin embargo, lo más punk de la frase es el asunto de las decisiones. Porque, en el fondo, ejerciendo de estadístico, apenas se me ha encargado tener que tomarlas. Eran cosa de otros, de los que manejaban el presupuesto.

El calendario chino como determinante en el sexo de los hijos

No a la hora en la que escribo esto pero, probablemente y por lo que me han dicho, sí a la hora en la que se publique esto, aparecerá en la revista Buena Vida de El País un artículo en el que se me menciona como experto y que se refiere a lo que encabeza esta entrada.

Por si las necesarias ediciones y por su valor intrínseco, reproduzco aquí (casi) íntegro el correo que he enviado a la autora:

Casos de uso de MicroDatosEs

R

MicroDatosEs ha sufrido algunas modificaciones recientes. En particular, un nuevo colaborador, Jorge López Pérez ha reescrito la documentación usando roxygen2`.

Pero falta una cosa importante (sobre todo, para el usuario esporádico): casos de uso.

En la página del paquete (el README.md de Github) he añadido una sección de ejemplos de uso de funciones del paquete, que actualmente solo tiene un enlace. Pero si alguien ha hecho o conoce algún otro ejemplo, y me lo puede comunicar, lo añadiré muy gustosamente (y quedaré muy agradecido). Eso sí, por concretar ideas: