En serio con Spark: instalación
Me he puesto en modo estoy serio con Spark. Lo instalé en mi ya manida máquina virtual (voy a subir una nueva versión de ella pronto), pero hoy la voy a instalar en mi portátil. Y con la idea de, en los próximos días, montar un clúster en condiciones.
Los pasos son los siguientes:
- Ir a la página de descargas y seleccionar una versión ya precompilada. Hay varias porque Spark se enlaza con librerías relacionadas con Hadoop (aunque uno puede utilizar Spark perfectamente sin él) y hay varias versiones mutuamente incompatibles de Hadoop. Como no tengo ninguna instalada en el portátil, cualquiera me vale.
- Descomprimir, mover el directorio a
/opt
y, opcionalmente, cambiar propietarios y grupos (aroot
). - Crear un enlace blando para vagos:
sudo ln -s /opt/spark-1.0.1-bin-hadoop1/ /opt/spark
- Arrancarlo (usando la interfaz para Python):
/opt/spark/bin/pyspark
En la consola, ahora, se puede ejecutar: