El día del oxímoron

Han aparecido dos artículos publicados en prensa hoy, en el mismo día: Indra deja desiertos 800 puestos en España por falta de mano de obra cualificada El sistema me ha expulsado por no publicar, que trata de cómo Cristina Gil-Lamaignere trabajó con un Nobel y ahora cursa un grado de FP porque no ha podido acreditar su labor científica. Tengo más comentarios que hacer que tiempo para escribirlos, así que dejo que cada cual saque su propia conclusión.

4 de abril de 2019 · Carlos J. Gil Bellosta

Incertidumbre en ránkings (o cómo la varianza es la mayor enemiga de la meritocracia)

Tengo por ahí leído y encolado el artículo League Tables and Their Limitations: Statistical Issues in Comparisons of Institutional Performance del perínclito Spiegelhalter que toma una serie de ránkings (de colegios, de hospitales) y trata de medir cuánto tienen de sustancia y cuánto de ruido. Hace cosas muy similares a las que escribí aquí. Mi entrada, además, cuenta con la ventaja (que lo será solo para algunos) de usar la sintaxis y código de lme4 en lugar de la nomenclatura que más odio para describir los modelos mixtos utilizados. ...

3 de abril de 2019 · Carlos J. Gil Bellosta

¿Vale realmente el "bootstrap" para comparar modelos?

Es una pregunta legítima —en el sentido de que ignoro la respuesta— que tengo. Para plantearla en sus debidos términos: Contexto: Tenemos modelos y queremos compararlos. Queremos que funcionen en el universo, pero solo disponemos de él una muestra. Acto 1: Para desatascar el nudo lógico, recurrimos a técnicas como: Entrenamiento y validación, jackknife y sobre todo, su popular evolución, la validación cruzada. Todas ellas bien sabidas y discutidas en todos los manuales. ...

2 de abril de 2019 · Carlos J. Gil Bellosta

¿Irán por aquí los tiros en el futuro de la "ciencia de datos"?

Para muchos, el futuro de la llamada ciencia de datos seguirá la estela dejada por y sus continuadores usando cosas deep. Pero a la vez, sin tanto estruendo y con una mucho menor cobertura mediática, otros están trazando una ruta alternativa que ilustran artículos como Bayes and Big Data: The Consensus Monte Carlo Algorithm (atención todos a lo que hace uno de sus coautores, Steven L. Scott, que convierte en oro todo lo que toca). Como abrebocas, su resumen (con mi subrayado): ...

1 de abril de 2019 · Carlos J. Gil Bellosta

Mi semilla

suppressWarnings(set.seed(exp(pi * complex(imaginary = 1)))) runif(1) #[1] 0.4866672 set.seed(-1) runif(1) #[1] 0.4866672 Coda: ¿De qué, si no, creéis que iba esto?

29 de marzo de 2019 · Carlos J. Gil Bellosta

Sobre la (necesaria) validación a posteriori de modelos de caja negra

Esta entrada viene a cuento de una conversación que tuve el otro día con un economista clásico que me preguntaba mi opinión sobre los métodos del ML aplicados en su disciplina (y no solo en ella). Le causaba cierto desasosiego, muy razonable, el hecho de que le pusieran delante cajas negras que presuntamente, y eso era artículo de fe, predecían ciertos fenómenos macroeconómicos. ¿Qué —decía— si los modelos están recogiendo las correlaciones erróneas? (Y sí, el mundo del ML está plagado de casos de ese tipo; por ejemplo, léase la motivación de Intelligible Models for HealthCare: Predicting Pneumonia Risk and Hospital 30-day Readmission). ...

27 de marzo de 2019 · Carlos J. Gil Bellosta

Hay algo podrido en la microeconomía normativa

Para el normativista (economista o no), lo importante no es cómo son las cosas sino cómo deberían ser. En Temporalidad: ¿buenas intenciones con malos resultados? viene a decirse que: La temporalidad laboral es intrínsecamente perversa. Que hay que desincentivarla de alguna manera (p.e., encareciendo los contratos temporales mediante penalizaciones fiscales) Normativismo at its best. Yo no sé cómo son las cosas. De hecho, siempre espero que gente como los autores del artículo me las expliquen, que describan antes de identificar problemas y proponer soluciones. Pero aun sin saber cómo son las cosas, sé cómo son mis cosas. ...

26 de marzo de 2019 · Carlos J. Gil Bellosta

Ceteris paribus vs Heráclito

Nuestro producto aumenta el X de las empresas en un Y%. ¿Cuántas veces hemos oído eso? Esa afirmación presupone una fe ciega en la posibilidad de aplicar el principio del ceteris paribus en situaciones reales. Pues lo siento: el ceteris paribus es un concepto abstracto, una aspiración a la que la realidad de las cosas se opone tozudamente. ¿Y Heráclito? Heráclito nos observa desde donde esté y se fuma un puro.

25 de marzo de 2019 · Carlos J. Gil Bellosta

Análisis (clasificación, etc.) de textos muy cortos

Uno de mis proyectos permanentemente pospuestos es el del análisis de textos muy cortos. Se citarán Twitter y similares, aunque el € está en otros sitios, como los mensajes asociados a transferencias bancarias, reseñas o keywords. Pero parece que no soy el único interesado en el tema. Otros con más tiempo y talento han desarrollado BTM, que parece ser una versión modificada de LDA para el análisis de textos cortos. El artículo en el que está basado el paquete también es una buena referencia de técnicas y trucos cuando toca analizar este tipo de conjuntos de datos.

22 de marzo de 2019 · Carlos J. Gil Bellosta

Encuesta de Estructura Salarial y R: propedéutica

La nota de prensa que acompaña a los resultados definitivos de la EES de 2014 reza: El salario bruto medio anual fue de 22.858,17 euros por trabajador en el año 2014, un 0,7% superior al del año anterior. Para poder replicar esa cifra y poder comparar manzanas con manzanas hay que preprocesar los datos crudos de la EES así: library(MicroDatosEs) dat <- ees2010("md_EES_2014.txt") # Días año dat$DIASRELABA <- dat$DRELABAM * 30.42 + dat$DRELABAD dat$DIASRELABA[dat$DIASRELABA > 365]<- 365 dat$DIASANO <- dat$DIASRELABA - dat$DSIESPA2 - dat$DSIESPA4 # Salario bruto anual dat$SALANUAL = (365/dat$DIASANO) * (dat$SALBRUTO + dat$VESP) Ahora sí que se puede definir, por ejemplo, ...

21 de marzo de 2019 · Carlos J. Gil Bellosta