Mascotas y rebaños
Muchos cuidamos de nuestro ordenador casi como una mascota: le ponemos un nombre (a menudo escribo desde tiramisu
), le hacemos algo de mantenimiento, etc. Hay quienes, incluso, decoran sus máquinas con pegatinas.
Pero llega un momento en que hay que comenzar a tratar a las máquinas no tanto como mascotas sino como rebaños. Desde una pantalla aneja a esta en la que escribo estoy manejando un clúster de más de 200 GB y 50 núcleos distribuido en varias máquinas que ni sé dónde están. Además, solo espero que crezca. Ya no cuido de una mascota; cuido de un rebaño.
Cuidar rebaños implica utilizar herramientas distintas que permitan, por ejemplo, instalar el mismo software a través de las distintas máquinas rápidamente, programáticamente.
Uno de los usos de este clúster es ajustar varios millones de glms. Hay quien cuida de sus modelos, de nuevo, como si fuesen mascotas: que si el ajuste, que si el outlier, que si el p-valor del coeficiente, etc. Que si mi gatito no me come.
Pero varios millones de glms son un rebaño. No sé muy bien cómo habrá que hacer para comprobar el ajuste, la selección de variables, la detección de outliers, etc. No sé si hay teoría al respecto pero si algún día doy con el libro Rebaños de modelos, me lo bajo de libgen seguro.