Un récord personal

El otro día, casi por error, cargué este dataframe en R:

dim(raw)
# [1] 115318140         4

Es todo un récord personal logrado en un servidor con 24GB de RAM bastante caro.

El anterior estaba en otro de algo así como 20 millones de filas y unas 6 o siete columnas. Eso sí, logrado en tiramisu, mi ordenador personal de 8GB de RAM de 400 euros (monitor incluido).

Os preguntaréis si pude hacer algo con ese monstruo. La verdad es que sí: pude muestrear un 10% de las filas y trabajar con ellas sin problemas.

¿Qué lectura puede hacerse de este hito? Pues que los ordenadores de 24, 64 y más GB de RAM comienzan a estar al alcance de manos tan humildes como las mías. Con esos bichos será posible atacar y resolver problemas en memoria (¿no es preferible a hacerlo con datos vaya-vd-a-saber-dónde?) expandiendo el ámbito de lo que llamo datos semigrandes (o semi-big data) y de lo resoluble con R (antaño considerado tan estrecho).