Requisitos para mi taller de Hadoop + R en las V Jornadas de Usuarios de R
El jueves 12 de diciembre impartiré un taller titulado Big data analytics: R + Hadoop en las V Jornadas de Usuarios de R.
Va a ser un taller práctico y eso exige de los asistentes que quieran aprovecharlo disponer de una plataforma (¡no trivial!) sobre la que seguirlo y poder realizar los ejercicios. Además de poder seguir ahondando en el asunto después y por su cuenta.
Los requisitos son los siguientes:
Software:
- VirtualBox
- ssh (via putty en Windows)
- La máquina virtual (nota: esta máquina virtual ya no existe en el momento, 2021, de la revisión de esta entrada)
Nótese que el tamaño de la máquina virtual (3GB) y del resto de los componentes hace imposible descargar todo el software necesario el día de las jornadas. Hay que descargarlo de antemano.
Hardware:
- 4GB de RAM como mínimo; recomendado, +8GB
- Ordenador / OS de 64 bits
Instrucciones:
-
Descarga la versión de VirtualBox (el enlace está arriba) adecuada para tu OS e instálalo.
-
Descarga la máquina virtual y descomprírmela
-
Abre VirtualBox y luego,
Machine > Add
(el fichero descomprimido) -
Arranca la máquina virtual (y comprueba que lo hace).
-
De ocurrir algún problema:
- Comprueba la lista de errores conocidos (más abajo).
- Busca el error en Google y soluciónalo.
- Escríbeme con una descripción del problema.
Acceso a la máquina virtual:
ssh: ssh -oPort=2222 rhadoop@localhost # pwd:rhadoop
root: pwd:hadoop
web:
-
rstudio:
http://localhost:8787
- u/p:
rhadoop
/rhadoop
-
hadoop job tracker:
http://localhost:50030
Problemas conocidos:
La máquina virtual podría no arrancar (error de tipo VMR*) si tienes desactivada la virtualización en la BIOS. Los detalles de cómo solucionar el problema dependen de la máquina pero no es complicado identificar la opción que permite activar la virtualización.