Consecuencias indeseadas de la falta de humildad

Me refiero a estas:

Es que es muy ridículo tu afan por aplicar tus promedios frívolamente a los fenómenos más variados para ofrecer predicciones que casi nunca se cumplen. No tiene que ver con el modelo estadístico, sino con el pésimo periodismo paracientífico que haces https://t.co/kD6bxknMFp

– Guillermo López (@GuillermoLPD) 9 de julio de 2018

La historia, resumida, es que Kiko Llaneras publica sus predicciones para el mundial en El País, i.e.,

Las tres culturas

Breiman habló de las dos. Dice, y tiene razón, que:

Según él, la estadística tradicional rellena la caja negra con:

¡Aburrido, aburrido, aburrido! Aburrido y limitado (aunque, hay que admitirlo, útil en ocasiones muy concretas). Breiman sugiere sustituir las cajas negras que encontramos en la naturaleza por otras cajas negras conceptuales:

Que es aún más aburrido y patrimonio, además, de toda suerte de script kiddies.

La tercera cultura reemplaza la caja negra por un modelo generativo que simula el comportamiento de la naturaleza (i.e., del sistema generador de números aleatorios pero con estructura). Y usa Stan (o sus alternativas) para estimar, predecir y, en última instancia, facilitar decisiones informadas.

Replicabilidad (y su falta de ella, fuera de la academia)

Se habla mucho de replicabilidad (y la falta de ella) como indicio de una crisis en ese complejo de intereses económicos, de poder y, en ocasiones, fornicatorios en que ha devenido la ciencia. Pero qué más nos da que se publique un artículo más o un artículo menos o que una ocurrencia irrelevante, gracias a un sinfín de artefactos propios de la industria de la salchicha, sea cohonestada con un p-valor menor o mayor que 0.05. Qué más da.

Hoy estoy participando en un evento sobre "big data"

Hoy estoy participando en la mesa redonda que cierra este evento. Espero dejar claro, cuando menos:

  • Qué quiere decir un cliente cuando dice que necesita big data: excel no da más de sí, tenemos a la gente copiando y el valor de una celda de aquí y pegándolo en un correo allá, etc.
  • Qué quiere (o debería querer) decir un consultor cuando vende big data: te voy a ayudar a automatizar ciertas tareas que tienen que ver con datos.
  • Qué es lo que no se debe tratar de automatizar: la generación y evaluación de modelos (si es que se llega siquiera a construir modelos).
  • Qué es lo automatizable: todo lo que se hace a fuerza de ratón.

Vox clamantis in deserto según unos, edgelord, según otros.

El motivo: retorno esperado negativo

Hay gente a la que recomiendo Kaggle y similares. Otra a la que no.

Con estos últimos suelo razonar alrededor de las ideas contenidas en Why I decided not to enter the $100,000 global warming time-series challenge (versión corta: retorno esperado negativo).

Y no me refiero tanto al monetario explícito del que habla el artículo, por supuesto, sino al otro: el que involucra el coste de oportunidad.

Inmigrantes y la historia del que se comió un pollo y el otro no

La historia del pollo es conocido: que si un tipo se come un pollo y otro ninguno, el estadístico de turno diría que se han comido medio cada uno. Lo de los inmigrantes viene a cuenta de noticias de la índole de

Vamos mojarnos un poco: 1/5 Recogida de refugiados: Siempre bien. Incluso con efecto llamada. Toda la literatura sobre entrada de inmigrantes, refugiados, repatriados,… a un país con una sociedad y economía abiertas muestra efectos positivos.

¿El mejor formato para diseminar microdatos?

A raíz de mi entrada de ayer, se han iniciado en mi derredor algunas discusiones sobre cuál podría ser el formato indicado para diseminar microdatos. En particular, los del INE. Y el asunto no es trivial.

Hasta la fecha, el procedimiento habitual era utilizar ficheros de ancho fijo con códigos, típicamente numéricos (p.e., 1-hombre; 6-mujer). Existían diccionarios asociados con pares código-descripción que se distribuían en hojas de cálculo adjuntas; es decir, metadatos. El procedimiento tradicional, por lo tanto, equivalía a desnormalizar la información: una tabla maestra contenía claves externas y una miríada de tablas auxiliares, una por columna, resolvían esas claves a sus correspondientes descripciones.

¡Un aplauso para el INE!

Decían que la ciencia avanzaba de entierro en entierro. Diríase que el INE avanza de jubilación en jubilación y que el efecto de la savia nueva comienza a manifestarse.

Lo hace, por ejemplo, en los microdatos de la Encuesta de Estructura Salarial de 2014. El fichero actual contiene, cosa inaudita, código para importarlos a SPSS, SAS y R. De verdad. Y eso merece nuestro aplauso. Particularmente, para el funcionario que haya tenido que pelear con la caverna para que las cosas no siguiesen siendo igual que siempre. Le debemos cervezas todos.

François Husson en las X Jornadas de Usuarios de R

Las X Jornadas de Usuarios de R siguen adelante. Ahora, el comité organizador ha anunciado que una de las charlas plenarias correrá a cargo de François Husson, conocido por FactoMineR.

Sirva esta entrada de recordatorio, además, para que vayas considerando acudir a las jornadas.

[Y sí, escribo poco este mes; desafortunadamente, no tanto por falta de motivos como del tiempo necesario.]

Posterioris informativas (o más bien, cuando te informan de cuál es la posteriori)

El otro día, en la ronda de preguntas tras mi charla en la Universidad de Zaragoza, después de mi enconada defensa de las prioris informativas, alguien apostilló muy agudamente: si tenemos prioris muy informativas, ¿para qué queremos datos?

Eso, ¿para qué queremos datos?

El otro día me lo explicó otro amigo en las siguientes líneas que reproduzco con las inexactitudes achacables a memoria anaidética:

En una empresa, un consejero tiene un proyecto, una idea. La tiene que defender frente al CEO y el resto del consejo. Ahí entra la ciencia de datos: alguien presenta un documento con tablas y gráficos que le dan un sostén basado en datos [a aquellas ideas que son previas a los datos].

Estadística descriptiva y teoría de la decisión

Agradezco mucho el comentario de José Luis a mi entrada/pregunta ¿Existiría algún caso de uso de la estadística que no sea materia prima para la toma de decisiones informadas?. Dice:

¿Y la mera estadística descriptiva que aparece en la investigación científica? Distribución de tallas de especies no conerciales, dinámicas de población, descripciones ecológicas….?

Y creo que es una aportación tan valiosa que merece toda una entrada más que una mera contestación: la pregunta que plantea es tan legítima y como fructífera y fomentadora de debate. Aunque creo, y de aquí la entrada, la objeción no se tiene en pie.

Guasa tiene que habiendo tanto economista por ahí tenga yo que escribir esta cosa hoy

Tiene que ver mi entrada de hoy con Why did Big Data fail Clinton?, que trata de lo que el título indica: toda la tontería que se ha escrito de Cambridge Analytica. Enlazo todo lo demás, por otro lado, con el nóbel de economía de 2016 (Hart y otro).

¿Por qué? De acuerdo con lo que muchos han escrito, una empresa de siete friquis en el Reino Unido con acceso a los likes de 50000 donnadies y poco más tienen poder para quitar y poner reyes con unos cuantos clicks. Poco menos que en sus manos está el hacer periclitar, si no occidente entero, al menos, sí sus democracias. (Que es un relato sumamente interesado: ¿cómo justificar, si no, todo el tinglado de la GDPR?)

Los extraños números de los muertos en carretera por accidente

Escribo esta entrada con cierta prevención porque soy consciente de que dan pábulo a determinadas teorías conspiranoicas de las que soy declarado enemigo. Pero es que los números de muertos en carretera por accidente en España en los últimos años,

(extraídos de aquí) dan que pensar: la varianza de las observaciones correspondientes a los años 2013, 2014 y 2015 es muy baja, demasiado baja. Al menos, si se da como bueno un modelo de Poisson para modelar esos conteos.