Big Data

El día 21 de febrero (de 2015) tendrá lugar en Medialab-Prado (¿cómo llegar?) un hackatón de datos abiertos patrocinado por Medialab-Prado y Open Knowledge Spain. El resto de la información puede consultarse aquí.

Dicho lo cual, ¿deberías ir?

Pues si tienes 45 años, eres profesor de la Autónoma, etc. lo sabes tú mejor que yo.

Pero si tienes veintitantos, estudias, has comenzado a trabajar recientemente o estás en el paro, si tienes inquietudes (y las tienes si lees esto), si quieres conocer técnicas nuevas, problemas nuevos, contactar con gente interesante, etc., el día 21 coge tu portátil y acude.

En julio anuncié en mi cuenta de Twitter (léase de abajo a arriba):

Ya está disponible.

Todos hemos comido macarrones con cosas de la nevera. Estás en casa, tienes hambre y, si no hay otra cosa, son estupendos. Distinto es ir a un bodorrio de alto copete y decirle al camarero:

—Oiga, esto del solomillo y tal… ¿No tendrán Vds. un platazo de macarrones con cosas de la nevera?

Viene esto a que cierta gente trabaja con grandes datos. Y quieren construir modelos. Y por algún motivo que no comprendo del todo, optan por la regresión logística. Hay mil motivos por los que estaría desaconsejado ajustar regresiones logísticas con todos los datos. Aun así, hay gente —sí, la hay— que lo hace.

El otro día ayudé a divulgar por aquí MadData, el datatón de datos abiertos del ayuntamiento de Madrid. Algunos me habéis preguntado si participaré. Pero estoy lejos (y, muy, muy ocupado).

Eso sí, os voy a contar dónde me gustaría meter la cuchara. En datos del ayuntamiento de Madrid, claro. Pero no los abiertos, ni los públicos, ni los conocidos. Sino los otros.

Os pongo en precedentes. Sabréis —si habéis seguido estas páginas— que soy el copropietario de MartinaCocina, un local que no sé si clasificar como cafetería o restaurante, en el centro de Madrid. En él hemos celebrado, incluso, algún evento del interés de mis lectores.

Copio (adaptándolo) de aquí:

_everis y MadridEmprende organizan el primer Open Datathon de Madrid.

La competición consiste en crear soluciones innovadoras a partir del uso de datos abiertos. MADdata pondrá a disposición de cada participante datos de la ciudad de Madrid, procedentes del portal de datos abiertos del Ayuntamiento, de servicios públicos, de transporte y movilidad y de redes sociales._

La inscripción está abierta hasta el 25 de julio de 2014.

Finalmente, he aquí una frase del anuncio que me hace mucha gracia:

Me he puesto en modo estoy serio con Spark. Lo instalé en mi ya manida máquina virtual (voy a subir una nueva versión de ella pronto), pero hoy la voy a instalar en mi portátil. Y con la idea de, en los próximos días, montar un clúster en condiciones.

Los pasos son los siguientes:

Ir a la página de descargas y seleccionar una versión ya precompilada. Hay varias porque Spark se enlaza con librerías relacionadas con Hadoop (aunque uno puede utilizar Spark perfectamente sin él) y hay varias versiones mutuamente incompatibles de Hadoop. Como no tengo ninguna instalada en el portátil, cualquiera me vale.
Descomprimir, mover el directorio a /opt y, opcionalmente, cambiar propietarios y grupos (a root).
Crear un enlace blando para vagos: sudo ln -s /opt/spark-1.0.1-bin-hadoop1/ /opt/spark
Arrancarlo (usando la interfaz para Python): /opt/spark/bin/pyspark

En la consola, ahora, se puede ejecutar:

Mis colegas de BigData for Successs acaban de publicar una versión actualizada de su informe Quién es Quién en el Big Data en España.

Quien se lo baje —¡muy recomendable!— entenderá por qué les tengo que estar muy agradecido.

A los estadísticos se nos acusa en ocasiones de contestar preguntas tontas en las que nadie está interesado.

(Nota: de alguna manera conseguí el artículo al que se refiere el enlace anterior; pero ahora no veo que exista ninguna copia libre por ahí. Si alguien la consigue, por el bien del resto de los lectores, que me avise o que lo haga saber en los comentarios).

A lo que iba. Muchos estadísticos tienen el cerebro reprogramado para tratar de no cometer los llamados errores de tipo I y errores de tipo II (y para ello tratan de estimar una cosa de dudosa utilidad, $P(D|H)$, donde $D$ son los datos y $H$ es cierta hipótesis (que, generalmente, a nadie interesa y que es más difícil de plantear correctamente de lo que parecería).

Este verano, la Escuela Complutense de Verano ofrece el curso Big & open data: análisis y programación con R.

Lo anuncio por aquí por tres motivos:

Por su interés intrínseco.
Por si alguno de los lectores de estas páginas estuviese interesado.
Porque yo participo/participaría en el programa contando cosas de lo más jugosas.

Los días 16 y 17 de junio tendrán lugar en Madrid las V Jornadas de la Enseñanza y Aprendizaje de la Estadística y la Investigación Operativa. Cosa de la que tal vez no hubiese llegado a tener constancia de no haber sido por la gentileza de la organización, que me ha invitado a impartir un taller introductorio al big data.

Serán cuatro horas y media en la mañana del 17 organizadas de la siguiente manera:

Big Data

Hackatón de datos abiertos, 21 de febrero en Madrid

Cómo no nació el "big data"

Los tests de hipótesis son los macarrones "con cosas de la nevera"

Si participase en MadData...

MadData: datatón de datos abiertos

En serio con Spark: instalación

Nueva versión del informe ‘Quién es Quién en el Big Data en España’

Errores de tipo M y de tipo S

Nuevo curso: "Big & open data: análisis y programación con R"

V Jornadas de la Enseñanza y Aprendizaje de la Estadística y la Investigación Operativa