Grandes Datos

Conferencia sobre Grandes Datos

Permítanme mis lectores matar dos pájaros con una misma entrada. La primera es anunciar que se está organizando una conferencia sobre Grandes Datos en Madrid este invierno. Tendrá lugar los días 14, 15 y 16 de noviembre. Los organizadores la anuncian así:

Un grupo informal de universidades, grupos de desarrolladores y empresas tienen el honor de organizar un congreso sobre Grandes Datos en Madrid, España. El congreso introducirá formalmente la disciplina de los Grandes Datos en España a través de una completa revisión de todas las áreas que incluye, desde la minería de datos y su limpieza hasta el análisis, la modelación y la distribución.

Datos grandes, colas largas

Codd desarrolló el modelo relacional —la base de casi todos los actuales sistemas de bases de datos— a finales de los años sesenta. El modelo relacional, basado en la lógica proposicional, suponía una ventaja sustancial con respecto a los métodos anteriores de almacenar información y bien implementado permite resolver una serie de problemas que afectaban a los sistemas anteriores:

  • Evita la redundancia de los datos.
  • Minimiza los problemas de actualización de los datos en las tablas.
  • Protege la integridad de los datos.
  • Etc.

Sin embargo, hay motivos por los que dicho esquema no es enteramente válido en contextos en los que se manejan datos grandes (para una definición sensata sobre lo que son “datos grandes”, léase este artículo).

R y conjuntos de datos "grandes"

R

Leer datos grandes con R produce inmensos quebraderos de cabeza. Existen dos soluciones extra-R: filtrar los datos cuanto antes y comprar más RAM. Desde R existen trucos y alternativas y hace un tiempo, aunque sin aspiraciones de exhaustividad, quise explorar algunas.

De ahí surgió una entrada que realicé hace un tiempo, en mi antiguo blog. Publiqué Tres fracasos y medio con R mientras esperaba a un amigo. En él presenté varias opciones para trabajar y operar con datos grandes. Fracasé tres veces y media. Una de ellas, la del fracaso que sólo fue medio, utilizaba mi paquete, colbycol.