Carlos J. Gil Bellosta

Nada más ni nada menos.

Vaya por delante, en mi descargo y como aviso para los que se cansan más de leer textos largos y complejos que de opinar, que no es un estudio completo. Realmente, solo voy a proporcionar herramientas para que otros con más tiempo e interés sobre el asunto las tomen si les parecen adecuadas, las limpien de errores y omisiones, se pongan a la faena y, con suerte, puedan llegar a resultados que tengan a bien publicar para iluminarnos a todos. El asunto, a todo esto, es un contrafactual: qué podría estar sucediendo con los beneméritos precios del mercado eléctrico español de seguir la central nuclear de Garoña (recuérdese: 460 MW de potencia) en funcionamiento.

[Este artículo tiene una corrección —tachado en el texto que sigue— posterior a la fecha de publicación original. Véase la entrada "¿Cómo aleatorizan las columnas los RRFF?: un experimento mental y una coda histórica" para obtener más información al respecto.]

Si hacemos caso, por ejemplo, a la gente que estaba allí entonces, la que estaba al día de todo lo que se publicaba en la época, la que conocía personalmente a los presuntos implicados y la que seguramente había tenido constancia previa de la idea en alguna pizarra o en la servilleta de una cafetería, fue Leo Breiman en 2001. Así nos lo cuentan, por ejemplo, Hastie et al. al principio del capítulo 15 de The Elements of Statistical Learning (2ª edición):

Larguísimo, arriba, significa algo así como 10 o 20 años. Vamos, como cuando comencé con R allá por el 2001.
- R es, reconozcámoslo, un carajal. Pocas cosas mejores que esta para convencerse.
- No dejo de pensar en aquello que me dijo un profesor en 2001: que R no podría desplazar a SAS porque no tenía soporte modelos mixtos. Yo no sabía qué eran los modelos mixtos en esa época pero, desde entonces, vine a entender y considerar que “tener soporte para modelos mixtos” venía a ser como aquello que convertía a un lenguaje para el análisis de datos en una alternativa viable y seria a lo existente. Y mirad esto.
- Obviamente, lo de los modelos mixtos no es más que una metáfora. Realmente significa algo así como “el sistema X tiene muchas cosas y su alternativa, Y, es un mero juguete”. Pero no hay nada que impida que Y comience a implementar todo aquello que le falta. Además, mucho más rápida y eficientemente. P.e., ¿cuánto tardó R en dotarse de su gramática de los gráficos? Pues bien, Juilia ya los tiene. (¿Cómo se dice leapfrog en español?)
- Dicho de otra manera, R ha sido el estado del arte en computación estadística en los últimos años. Ha avanzado por prueba y error. Pero ahora, cualquier rival ya sabe qué tiene que hacer exactamente para llegar a donde está R.
- Julia corre sobre LLVM. Es decir, que se beneficia automáticamente de cualquier mejora realizada sobre la máquina virtual (si es que se me permite llamar así a LLVM).
- Esta semana he estado programando en C unas rutinas que tienen que ser llamadas desde R. Pero, ¿no sería el mundo más hermoso no tener que cambiar de lenguaje para tener rendimiento de C?
- Arriba comparo R y Julia como extremos de un arco (en el que a la izquierda de R quedan aún irrelevancias como SAS o SPSS). Python ocupa una posición intermedia entre ambos. Desde un punto de vista meramente técnico, si alguna dimensión es Python mejor que R, Julia es todavía mejor que Python. Salvo, de nuevo, la cantidad de flecos y cascabeles de los que ya dispone Python y que todavía no están presentes en Julia. Pero, como se ha dicho arriba, desde la perspectiva del larguísimo plazo, es una objeción irrelevante que apunta a un estado transitorio de las cosas.

Y supongo que podría seguir.

El vídeo es

y abunda sobre el archiconocido correlación no implica causalidad. El artículo de Chris Anderson que se menciona es_ The End of Theory_.

Contexto: Una empresa tiene una serie de técnicos repartidos por todas las provincias que tienen que hacer visitas y reparaciones in situ a una serie de clientes dispersos. La empresa cuenta con un departamento técnico central que asigna diariamente y, fundamentalmente, con herramientas ofimáticas las rutas a cada uno de los técnicos.

Alternativas tecnológicas:

Machín Lenin: Unos científicos de datos usan algoritmos de enrutamiento para crear una herramienta que ayuda (o reemplaza total o parcialmente) al equipo técnico de las hojas de cálculo para generar rutas óptimas que enviar diariamente a los técnicos. El sueño húmedo de los burócratas del Gosplán (y de los Kantorovich que en el mundo han sido).
Anarcocapitalismo: Unos informáticos crean una herramienta que permite a los técnicos seleccionar sus rutas diarias (sujetas a ciertas restricciones fácilmente adivinables), intercambiarlas entre sí, etc. Sí, como quien se apunta a las clases del gimnasio (¿funciona este símil en general?).

Ejercicio para el lector: Ponderar las ventajas y desventajas de cada aproximación al problema.

A autores como Playfair (tartas), Tukey (diagramas de cajas) o Tufte (pequeños múltiplos) debemos algunas de las técnicas de representación gráfica de datos que usamos habitualmente y a las que el público, mal que bien, está acostumbrado.

Otros autores han tratado de tecnologizar dichas técnicas. Es decir, entender por qué funcionan o cómo hacerlas más efectivas. Para ello se han apoyado en el trabajo de los sicólogos de la percepción. El trabajo pionero al respecto, al menos en el ámbito de la estadística, es de Cleveland y McGill (véase esto y, si procede, sus referencias) y ha sido continuado por otros.

Un título tan largo amerita, como menos, un vídeo igualmente largo,

y un panel de lujo, que incluye a Luz Frías (Circiter), Pelayo Arbués (Idealista) y Alejandro Llorente (Piperlab).

El vídeo existe en lugar de no existir, aparte de por la amabilidad de los participantes en el debate, por la perplejidad que me causa el inesperado cambio de tendencia en el mercado (de la ciencia de datos en España), que ha pasado de un crudo invierno post-pandémico, en el que parecía que la inversión privada se retraía hasta el nihil, a una situación de desbordamiento.

Mi mapa provincial de España favorito es este:

O, en una versión más cruda,

Cosas sobre él:

Forma parte de la colección de mapas que provee el INE para su uso con en infausto PCAxis y puede descargarse de aquí (junto con muchos otros, casi todos convencionales y aburridos, mapas de España, sus regiones, provincias y municipios).
Para facilitar su uso y, probablemente, infringiendo normas sobre la propiedad intelectual u otras, lo he colgado también aquí.
Como se puede apreciar, el mapa resuelve los problemas que plantean otros más fieles al territorio para la representación de información estadística. En particular, redimensiona algunas provincias para hacerlas visibles y, llegado el caso, clicables.
Tiene muchos, muchos detractores.

Lo de los detractores es una cosa extraña. Yo creo que son familia de alguien del rincón de Ademuz o del Condado de Treviño. Desde luego, gente que jamás ha cogido un metro. Los primeros planos del metro de Londres eran tal que

Este vídeo está motivado por un comentario muy entrañable y fácil de pasar por alto que me llamó la atención en este artículo de ElDiario.es. En el fondo, los autores, se dan cuenta de que pueden estar incurriendo en la falacia ecológica, término que dudo que conozcan siquiera, y admirablemente, se percatan de que pisan terreno pantanoso y se curan en salud.

Eso me conduce a reflexionar sobre cómo y cuándo se conformó esa ideología (¿o liturgia?) de lo cuantitativo sobre la que no quiero decir nada más que lo que cuento en el vídeo:

Esta entrada abunda sobre una de la semana pasada sobre el llamado efecto Roseto. El Cournot al que alude el titulo es el Cournot famoso (1801-1877) al que, a pesar de ser más conocido por sus aportaciones a la economía, debemos una Exposition de la théorie des chances et des probabilités de 1843.

En su párrafo 114 critica explícitamente el tipo de conclusiones a las que llegan los descuidados exégetas del asunto Roseto y que Stigler comenta así:

Apuntes para el estudio del impacto del cierre de la central nuclear de Garoña en el precio de la electricidad en España

¿Quién inventó los "random forests"?

Mi apuesta para el larguísimo plazo: Julia

Nuevo vídeo en YouTube. Segunda entrega sobre causalidad (y, esta vez, datos observacionales)

Hayek vs "Machín Lenin"

La miseria de la sicología de la percepción

Nuevo vídeo en YouTube: sobre el futuro a corto y medio plazos de la ciencia de datos como negocio en España

Mi mapa provincial favorito

Nuevo vídeo en YouTube. Esta vez, sobre la falacia ecológica

Cournot sobre el "efecto Roseto", 120 años antes de tal