Requisitos para mi taller de Hadoop + R en las V Jornadas de Usuarios de R

El jueves 12 de diciembre impartiré un taller titulado Big data analytics: R + Hadoop en las V Jornadas de Usuarios de R.

Va a ser un taller práctico y eso exige de los asistentes que quieran aprovecharlo disponer de una plataforma (¡no trivial!) sobre la que seguirlo y poder realizar los ejercicios. Además de poder seguir ahondando en el asunto después y por su cuenta.

Los requisitos son los siguientes:

Software:

  • VirtualBox
  • ssh (via putty en Windows)
  • La máquina virtual (nota: esta máquina virtual ya no existe en el momento, 2021, de la revisión de esta entrada)

Nótese que el tamaño de la máquina virtual (3GB) y del resto de los componentes hace imposible descargar todo el software necesario el día de las jornadas. Hay que descargarlo de antemano.

Hardware:

  • 4GB de RAM como mínimo; recomendado, +8GB
  • Ordenador / OS de 64 bits

Instrucciones:

  • Descarga la versión de VirtualBox (el enlace está arriba) adecuada para tu OS e instálalo.

  • Descarga la máquina virtual y descomprírmela

  • Abre VirtualBox y luego, Machine > Add (el fichero descomprimido)

  • Arranca la máquina virtual (y comprueba que lo hace).

  • De ocurrir algún problema:

    • Comprueba la lista de errores conocidos (más abajo).
    • Busca el error en Google y soluciónalo.
    • Escríbeme con una descripción del problema.

Acceso a la máquina virtual:

ssh: ssh -oPort=2222 rhadoop@localhost # pwd:rhadoop

root: pwd:hadoop

web:

  • rstudio:

    • http://localhost:8787
    • u/p: rhadoop/rhadoop
  • hadoop job tracker: http://localhost:50030

Problemas conocidos:

La máquina virtual podría no arrancar (error de tipo VMR*) si tienes desactivada la virtualización en la BIOS. Los detalles de cómo solucionar el problema dependen de la máquina pero no es complicado identificar la opción que permite activar la virtualización.