Curso de estadística aplicada con Stan: ejercicio 1

A primeros de julio impartí un curso de estadística bayesiana aplicada con Stan. Tengo que examinar a los alumnos y he aquí el primero de los ejercicios:

En un país, se extrae una muestra de 2000 hombres y mujeres con la siguiente distribución:

men   <- 170 + 3 * rt(1000, 6)
women <- 160 + 2 * rt(1000, 5)
heights <- c(men, women)

Ajusta una distribución (una mezcla de dos distribuciones de Student) usando los datos anteriores, i.e., heights. Puedes suponer conocidos:

  • Los pesos de la mezcla (0.5) cada uno.
  • Que los grados de libertad de las t’s están entre 3 y 8 aproximadamente.
  • Experimenta con otros tamaños muestrales y comenta los resultados obtenidos (y los tiempos de ejecución).

Nota: este problema está motivado por una aplicación real: el ajuste de distribuciones de pérdida en banca y seguros. Típicamente, se mezclan dos distribuciones, una para la cola de la distribución y otra para el cuerpo. Hay técnicas frecuentistas (p.e., EM) para resolver estos problemas. Pero me parecen menos naturales y menos flexibles que la ruta 100% bayesiana.

Consecuencias indeseadas de la falta de humildad

Me refiero a estas:

Es que es muy ridículo tu afan por aplicar tus promedios frívolamente a los fenómenos más variados para ofrecer predicciones que casi nunca se cumplen. No tiene que ver con el modelo estadístico, sino con el pésimo periodismo paracientífico que haces https://t.co/kD6bxknMFp

– Guillermo López (@GuillermoLPD) 9 de julio de 2018

La historia, resumida, es que Kiko Llaneras publica sus predicciones para el mundial en El País, i.e.,

Las tres culturas

Breiman habló de las dos. Dice, y tiene razón, que:

Según él, la estadística tradicional rellena la caja negra con:

¡Aburrido, aburrido, aburrido! Aburrido y limitado (aunque, hay que admitirlo, útil en ocasiones muy concretas). Breiman sugiere sustituir las cajas negras que encontramos en la naturaleza por otras cajas negras conceptuales:

Que es aún más aburrido y patrimonio, además, de toda suerte de script kiddies.

La tercera cultura reemplaza la caja negra por un modelo generativo que simula el comportamiento de la naturaleza (i.e., del sistema generador de números aleatorios pero con estructura). Y usa Stan (o sus alternativas) para estimar, predecir y, en última instancia, facilitar decisiones informadas.

Replicabilidad (y su falta de ella, fuera de la academia)

Se habla mucho de replicabilidad (y la falta de ella) como indicio de una crisis en ese complejo de intereses económicos, de poder y, en ocasiones, fornicatorios en que ha devenido la ciencia. Pero qué más nos da que se publique un artículo más o un artículo menos o que una ocurrencia irrelevante, gracias a un sinfín de artefactos propios de la industria de la salchicha, sea cohonestada con un p-valor menor o mayor que 0.05. Qué más da.

Hoy estoy participando en un evento sobre "big data"

Hoy estoy participando en la mesa redonda que cierra este evento. Espero dejar claro, cuando menos:

  • Qué quiere decir un cliente cuando dice que necesita big data: excel no da más de sí, tenemos a la gente copiando y el valor de una celda de aquí y pegándolo en un correo allá, etc.
  • Qué quiere (o debería querer) decir un consultor cuando vende big data: te voy a ayudar a automatizar ciertas tareas que tienen que ver con datos.
  • Qué es lo que no se debe tratar de automatizar: la generación y evaluación de modelos (si es que se llega siquiera a construir modelos).
  • Qué es lo automatizable: todo lo que se hace a fuerza de ratón.

Vox clamantis in deserto según unos, edgelord, según otros.

El motivo: retorno esperado negativo

Hay gente a la que recomiendo Kaggle y similares. Otra a la que no.

Con estos últimos suelo razonar alrededor de las ideas contenidas en Why I decided not to enter the $100,000 global warming time-series challenge (versión corta: retorno esperado negativo).

Y no me refiero tanto al monetario explícito del que habla el artículo, por supuesto, sino al otro: el que involucra el coste de oportunidad.

Inmigrantes y la historia del que se comió un pollo y el otro no

La historia del pollo es conocido: que si un tipo se come un pollo y otro ninguno, el estadístico de turno diría que se han comido medio cada uno. Lo de los inmigrantes viene a cuenta de noticias de la índole de

Vamos mojarnos un poco: 1/5 Recogida de refugiados: Siempre bien. Incluso con efecto llamada. Toda la literatura sobre entrada de inmigrantes, refugiados, repatriados,… a un país con una sociedad y economía abiertas muestra efectos positivos.

¿El mejor formato para diseminar microdatos?

A raíz de mi entrada de ayer, se han iniciado en mi derredor algunas discusiones sobre cuál podría ser el formato indicado para diseminar microdatos. En particular, los del INE. Y el asunto no es trivial.

Hasta la fecha, el procedimiento habitual era utilizar ficheros de ancho fijo con códigos, típicamente numéricos (p.e., 1-hombre; 6-mujer). Existían diccionarios asociados con pares código-descripción que se distribuían en hojas de cálculo adjuntas; es decir, metadatos. El procedimiento tradicional, por lo tanto, equivalía a desnormalizar la información: una tabla maestra contenía claves externas y una miríada de tablas auxiliares, una por columna, resolvían esas claves a sus correspondientes descripciones.

¡Un aplauso para el INE!

Decían que la ciencia avanzaba de entierro en entierro. Diríase que el INE avanza de jubilación en jubilación y que el efecto de la savia nueva comienza a manifestarse.

Lo hace, por ejemplo, en los microdatos de la Encuesta de Estructura Salarial de 2014. El fichero actual contiene, cosa inaudita, código para importarlos a SPSS, SAS y R. De verdad. Y eso merece nuestro aplauso. Particularmente, para el funcionario que haya tenido que pelear con la caverna para que las cosas no siguiesen siendo igual que siempre. Le debemos cervezas todos.