Estadística

Prioris informativas: un ejemplo

Imagina que tienes que generar (reitero: generar) datos compatibles con el siguiente modelo:

  • Tienes n sujetos a los que se proporciona un remedio para dormir en distintas dosis (conocidas) en distintos días.
  • El número adicional de horas que duerme cada sujeto es lineal con una pendiente que depende de la dosis (una serie de dosis fijas).
  • Esa recta tiene un término independiente (el número de horas que duerme el sujeto con una dosis igual a cero del remedio).

Argumento que para generar los términos independientes usarías algo así como una normal de media igual a 8 horas. Seguro que usarías alguna otra distribución razonable para las pendientes (p.e., que prohibiese que con dosis pequeñas se durmiese, p.e., 80 horas).

Un generador de datos sintéticos para proteger la privacidad de los microdatados

DataSynthesizer (véase también el correspondiente artículo) es un programa en Python que:

  1. Toma una tabla de datos (microdatos, de hecho) que contiene información confidencial.
  2. Genera otra aleatoria pero que conserva (¿los conservará?) la estructura básica de la información subyacente (conteos, correlaciones, etc.).

Está pensado para poder realizar el análisis estadístico de (determinados) datos sin verlos propiamente.

Particularmente interesante es el algoritmo para preservar la correlación entre columnas.

[Nota: he aprovechado la entrada para acuñar el neologismo microdatado para referirme a quien figura en un fichero de microdatos.]

¿Existirá algún caso de uso de la estadística que no sea materia prima para la toma de decisiones informadas?

Estoy escribiendo unas notas muy punk sobre estadística. Desde cero. Hasta la luna. Pero que no se parecen en absoluto a nada de lo que he visto habitualmente escrito sobre la materia. Uno de sus capítulos, el primero, habla en general de la estadística. Abre con

Statistics is a technology concerned with stochastic data generating systems (SDGS) for the purpose of making informed decisions.

y el resto del capítulo desarrolla cada elemento de la frase (sí, qué es una tecnología, etc.). Sin embargo, lo más punk de la frase es el asunto de las decisiones. Porque, en el fondo, ejerciendo de estadístico, apenas se me ha encargado tener que tomarlas. Eran cosa de otros, de los que manejaban el presupuesto.

El calendario chino como determinante en el sexo de los hijos

No a la hora en la que escribo esto pero, probablemente y por lo que me han dicho, sí a la hora en la que se publique esto, aparecerá en la revista Buena Vida de El País un artículo en el que se me menciona como experto y que se refiere a lo que encabeza esta entrada.

Por si las necesarias ediciones y por su valor intrínseco, reproduzco aquí (casi) íntegro el correo que he enviado a la autora:

gam vs rrff (y, en general, modelos generativos vs cajas negras)

Para modelizar una serie temporal, y simplificándolo mucho, ¿gam o rrff? Como todo, depende. El otro día oí de un caso en el que los segundos vencían a los primeros claramente. Natural.

Hay contextos con una estructura matemática clara y potente. En particular, muchos en los que trabajo actualmente. ¿Para qué usar una herramienta genérica cuando cuento con una específica? Esos datos, mis datos, exigen estructura matemática.

Luego hay otros casos en los que uno se lanza al río. Luego uno siempre quiere invertir el proceso y ver qué carajos está ocurriendo con los datos (véase esto).

Redundancias (o por qué empeñarnos en tener tantos datos cuando con una fracción sobra)

[Esta entrada no contiene ni respuestas ni, tan siquiera, buenas preguntas. Solo vuelco en ella ideas más o menos inconexas que me rondan la cabeza. Tal vez alguien sepa reformularlas mejor, plantear la pregunta concreta que exige el asunto y, con suerte, responderla con claridad y distinción.]

Mi proyecto trata de la estimación de los parámetros que rigen una determinada curva (altamente no lineal) de la que se tienen N observaciones en el tiempo. Igual que tengo N podría tener 2N o N/2.

Un problema: cómo muestrear histogramas con medias. La vía de los trapecios

Me refiero muy impropiamente con histogramas con medias a algo parecido a

que son resúmenes de datos en los que aparecen no solo intervalos sino también las medias correspondientes a los sujetos dentro de esos intervalos.

Si uno quiere hacer cosas con esos datos tiene una vía que consiste en muestrear el histograma. Pero la media en cada intervalo será su punto central, no necesariamente su valor medio conocido.

Por simplificar, supongamos que tenemos datos en el intervalo [0, 1] cuya media es $latex \mu$. ¿Cómo obtener un muestreo razonable de valores en dicho intervalo?

Modelos con inflación de ceros y separación perfecta

Al estudiar problemas de conteos, la llamada inflación de ceros ocurre frecuentemente: los datos contienen más ceros de los que ocurrirían según las distribuciones habituales (Poisson, binomial negativa). Un modelo con inflación de ceros es una mezcla (mixtura) de un modelo de conteos y una distribución de Dirac (en cero).

Las técnicas habituales para resolverlos involucran (explícita o implícitamente) una estructura jerárquica de modelos: primero, uno (similar a una logística), separa las observaciones que corresponderían a la Dirac del resto. Un segundo modelo de conteos trata de ajustar el segundo.

Estimar la demanda es como ponerle el cascabel al gato

Alborozábanse los ratones al oír de sus líderes la solución definitiva al problema de aquel gato que los diezmaba inmisericordemente: ¡colóquesele un cascabel!

El problema gordiano del pricing, el cascabel que hay que ponerle a ese gato, es el de la estimación de la curva de demanda. Ahi radica el quid.

Unos lo resuelven con simulaciones que quedan estupendas sobre el papel. ¡Qué fácil es ponerle un cascabel a un gato de madera!

Causalidad: malo lo uno, pero tampoco bueno lo otro

Leo en Las causalidades en Economía a Manuel Alejandro Hidalgo dignándose a dar réplica al panfletillo Curva de Laffer: Montoro bajó por fin el IRPF… y recaudó un 6% más.

El último no cuenta apenas más que lo que anuncia en su titulo. El primero quiere enmendarle la plana, pero al hacerlo escribe frases tan chirriantes como:

Insinuar que gracias a la bajada del IRPF por Cristóbal Montoro los ingresos por este tributo se incrementaron en un 6,5% exige, cuando menos, un Trabajo Fin de Máster y de los buenos. Exige muchas semanas de trabajo y mucha econometría, por no decir que exige de un modelo de tu economía que te ayude a manejar de un modo ordenado las ideas, las relaciones causales.