Consecuencias indeseadas de la falta de humildad

Me refiero a estas: Es que es muy ridículo tu afan por aplicar tus promedios frívolamente a los fenómenos más variados para ofrecer predicciones que casi nunca se cumplen. No tiene que ver con el modelo estadístico, sino con el pésimo periodismo paracientífico que haces https://t.co/kD6bxknMFp – Guillermo López (@GuillermoLPD) 9 de julio de 2018 La historia, resumida, es que Kiko Llaneras publica sus predicciones para el mundial en El País, i.e., ...

16 de julio de 2018 · Carlos J. Gil Bellosta

Las tres culturas

Breiman habló de las dos. Dice, y tiene razón, que: Según él, la estadística tradicional rellena la caja negra con: ¡Aburrido, aburrido, aburrido! Aburrido y limitado (aunque, hay que admitirlo, útil en ocasiones muy concretas). Breiman sugiere sustituir las cajas negras que encontramos en la naturaleza por otras cajas negras conceptuales: Que es aún más aburrido y patrimonio, además, de toda suerte de script kiddies. La tercera cultura reemplaza la caja negra por un modelo generativo que simula el comportamiento de la naturaleza (i.e., del sistema generador de números aleatorios pero con estructura). Y usa Stan (o sus alternativas) para estimar, predecir y, en última instancia, facilitar decisiones informadas.

11 de julio de 2018 · Carlos J. Gil Bellosta

Replicabilidad (y su falta de ella, fuera de la academia)

Se habla mucho de replicabilidad (y la falta de ella) como indicio de una crisis en ese complejo de intereses económicos, de poder y, en ocasiones, fornicatorios en que ha devenido la ciencia. Pero qué más nos da que se publique un artículo más o un artículo menos o que una ocurrencia irrelevante, gracias a un sinfín de artefactos propios de la industria de la salchicha, sea cohonestada con un p-valor menor o mayor que 0.05. Qué más da. ...

21 de junio de 2018 · Carlos J. Gil Bellosta

Hoy estoy participando en un evento sobre "big data"

Hoy estoy participando en la mesa redonda que cierra este evento. Espero dejar claro, cuando menos: Qué quiere decir un cliente cuando dice que necesita big data: excel no da más de sí, tenemos a la gente copiando y el valor de una celda de aquí y pegándolo en un correo allá, etc. Qué quiere (o debería querer) decir un consultor cuando vende big data: te voy a ayudar a automatizar ciertas tareas que tienen que ver con datos. Qué es lo que no se debe tratar de automatizar: la generación y evaluación de modelos (si es que se llega siquiera a construir modelos). Qué es lo automatizable: todo lo que se hace a fuerza de ratón. Vox clamantis in deserto según unos, edgelord, según otros.

20 de junio de 2018 · Carlos J. Gil Bellosta

El motivo: retorno esperado negativo

Hay gente a la que recomiendo Kaggle y similares. Otra a la que no. Con estos últimos suelo razonar alrededor de las ideas contenidas en Why I decided not to enter the $100,000 global warming time-series challenge (versión corta: retorno esperado negativo). Y no me refiero tanto al monetario explícito del que habla el artículo, por supuesto, sino al otro: el que involucra el coste de oportunidad.

19 de junio de 2018 · Carlos J. Gil Bellosta

Inmigrantes y la historia del que se comió un pollo y el otro no

La historia del pollo es conocido: que si un tipo se come un pollo y otro ninguno, el estadístico de turno diría que se han comido medio cada uno. Lo de los inmigrantes viene a cuenta de noticias de la índole de Vamos mojarnos un poco: 1/5 Recogida de refugiados: Siempre bien. Incluso con efecto llamada. Toda la literatura sobre entrada de inmigrantes, refugiados, repatriados,… a un país con una sociedad y economía abiertas muestra efectos positivos. ...

18 de junio de 2018 · Carlos J. Gil Bellosta

¿El mejor formato para diseminar microdatos?

A raíz de mi entrada de ayer, se han iniciado en mi derredor algunas discusiones sobre cuál podría ser el formato indicado para diseminar microdatos. En particular, los del INE. Y el asunto no es trivial. Hasta la fecha, el procedimiento habitual era utilizar ficheros de ancho fijo con códigos, típicamente numéricos (p.e., 1-hombre; 6-mujer). Existían diccionarios asociados con pares código-descripción que se distribuían en hojas de cálculo adjuntas; es decir, metadatos. El procedimiento tradicional, por lo tanto, equivalía a desnormalizar la información: una tabla maestra contenía claves externas y una miríada de tablas auxiliares, una por columna, resolvían esas claves a sus correspondientes descripciones. ...

13 de junio de 2018 · Carlos J. Gil Bellosta

¡Un aplauso para el INE!

Decían que la ciencia avanzaba de entierro en entierro. Diríase que el INE avanza de jubilación en jubilación y que el efecto de la savia nueva comienza a manifestarse. Lo hace, por ejemplo, en los microdatos de la Encuesta de Estructura Salarial de 2014. El fichero actual contiene, cosa inaudita, código para importarlos a SPSS, SAS y R. De verdad. Y eso merece nuestro aplauso. Particularmente, para el funcionario que haya tenido que pelear con la caverna para que las cosas no siguiesen siendo igual que siempre. Le debemos cervezas todos. ...

12 de junio de 2018 · Carlos J. Gil Bellosta

François Husson en las X Jornadas de Usuarios de R

Las X Jornadas de Usuarios de R siguen adelante. Ahora, el comité organizador ha anunciado que una de las charlas plenarias correrá a cargo de François Husson, conocido por FactoMineR. Sirva esta entrada de recordatorio, además, para que vayas considerando acudir a las jornadas. [Y sí, escribo poco este mes; desafortunadamente, no tanto por falta de motivos como del tiempo necesario.]

11 de junio de 2018 · Carlos J. Gil Bellosta

Posterioris informativas (o más bien, cuando te informan de cuál es la posteriori)

El otro día, en la ronda de preguntas tras mi charla en la Universidad de Zaragoza, después de mi enconada defensa de las prioris informativas, alguien apostilló muy agudamente: si tenemos prioris muy informativas, ¿para qué queremos datos? Eso, ¿para qué queremos datos? El otro día me lo explicó otro amigo en las siguientes líneas que reproduzco con las inexactitudes achacables a memoria anaidética: En una empresa, un consejero tiene un proyecto, una idea. La tiene que defender frente al CEO y el resto del consejo. Ahí entra la ciencia de datos: alguien presenta un documento con tablas y gráficos que le dan un sostén basado en datos [a aquellas ideas que son previas a los datos]. ...

7 de junio de 2018 · Carlos J. Gil Bellosta