Big Data

El jueves día 12 tengo un taller de cuatro horas en el I International Workshop on Advances in Functional Data Analysis. Siendo internacional (y el material está en inglés), me vais a permitir escribir el resto de la entrada urbi et orbi.

I will be presenting a hands-on workshop. Those attending it are invited to install a few tools in order to make the most of it during and after the sessions.

A fines de octubre participaré en el Encuentro Big Data 2015 en Bogotá. Formaré parte de una mesa redonda sobre formación (y políticas de formación) en este campo.

Tengo una postura poco convencional sobre esos temas y, me atrevería a decir, polémica en cuanto a la relación entre las administraciones públicas y las burocracias enseñativas y el hecho de que la gente explore, conozca y aprenda cosas como Spark. Aunque, supongo, quienes me han hecho el honor de invitarme no lo saben (aún).

Ha salido publicada la guía INKS2015. Está dirigida a profesionales digitales y trata temas como el márketing digital, el SEO, las redes sociales o la usabilidad. Temas todos ellos que, aunque interesantes, no suelo tratar aquí.

Solo que la guía incluye esta vez una sección dedicada al big data y recoge un par de páginas mías (así como de un par de colegas: Ismael Herráiz y Rubén Casado) a las que igual queréis echar un vistazo.

Me confiman que figuro en el Quién es Quién del Big Data en España 2015.

Aprovecho para agradecer encarecida y públicamente la gentileza de los autores del estudio.

Aunque no hay una definición exacta sobre la minería de datos… ¿cómo definiría usted Big Data?¿Qué herramientas utiliza usted para la búsqueda de datos? (públicas o privadas)

Dicen los marxistas –aunque el concepto es anterior– que un cambio cuantitativo, a partir de cierto umbral, desencadena un cambio cualitativo. Las empresas, las instituciones públicas, etc. siempre han almacenado y estudiado estadísticamente datos a nivel de subsidiaria, departamento, provincia, oficina, región, producto, etc. Solo recientemente han visto que es técnicamente posible estudiar sus datos a nivel de individuo (ciudadano, cliente, etc.). Eso ha implicado que el tamaño de los conjuntos de datos han crecido (ahí el cambio cuantitativo) en varios órdenes de magnitud (¿tres? ¿cuatro?). El cambio cualitativo concomitante es lo que llamamos big data.

Recomiendo leer Scalable Strategies for Computing with Massive Data, un artículo que trata dos de los problemas de escalabilidad con que tropezamos los usuarios de R:

Los de memoria, para los que proponen e ilustran el uso del paquete bigmemory.
Los de velocidad de ejecución, a los que se enfrentan paralelizando el código, tanto en una única máquina como en un clúster, con foreach.

En el artículo no solo discute los dos paquetes por separado sino que ilustra, además, cómo usarlos conjuntamente en su propuesta de estrategia escalable con R.

Abres una aplicación en tu móvil que diseñó un programador búlgaro. Ipso facto aparece un insidioso banner de, p.e., Jazztel. ¿Cuáles son los mecanismos que ponen en contacto al búlgaro con Jazztel? ¿De qué manera recibe aquél una compensación de esta?

Tradicionalmente, el desarrollador habría hablado con, p.e., Google. Le habría dicho: yo voy a generar “espacios” donde tú vas a poder colgar propaganda a cambio de una cantidad (fija o variable). El intermediario, por otra parte, capta anunciantes (Jazztel en nuestro ejemplo), almacena un inventario de ellos y decide cuál de ellos mostrar. Hay teoría aplicable en estos contextos, como la que describe Real-Time Bidding Algorithms for Performance-Based Display Ad Allocation.

Tal será el título de la charla de una hora que daré en el Big Data Science Fighters en abril.

El título es una adaptación de este latinajo y lo usufructo más en la forma que en la sustancia, que la del original se me escapa. El mío servirá para condensar el cúmulo de problemas que he venido detectando en este mundo del análisis de datos: la falta de adecuación de las herramientas de almacenamiento, procesamiento y análisis de datos a la cosa. Y no me restringiré a las de hierro (¡o silicio!) o a las ristras de ceros y unos: también haré un repaso de algunas de las teóricas.

El día 21 de febrero (de 2015) tendrá lugar en Medialab-Prado (¿cómo llegar?) un hackatón de datos abiertos patrocinado por Medialab-Prado y Open Knowledge Spain. El resto de la información puede consultarse aquí.

Dicho lo cual, ¿deberías ir?

Pues si tienes 45 años, eres profesor de la Autónoma, etc. lo sabes tú mejor que yo.

Pero si tienes veintitantos, estudias, has comenzado a trabajar recientemente o estás en el paro, si tienes inquietudes (y las tienes si lees esto), si quieres conocer técnicas nuevas, problemas nuevos, contactar con gente interesante, etc., el día 21 coge tu portátil y acude.

El otro día ayudé a divulgar por aquí MadData, el datatón de datos abiertos del ayuntamiento de Madrid. Algunos me habéis preguntado si participaré. Pero estoy lejos (y, muy, muy ocupado).

Eso sí, os voy a contar dónde me gustaría meter la cuchara. En datos del ayuntamiento de Madrid, claro. Pero no los abiertos, ni los públicos, ni los conocidos. Sino los otros.

Os pongo en precedentes. Sabréis —si habéis seguido estas páginas— que soy el copropietario de MartinaCocina, un local que no sé si clasificar como cafetería o restaurante, en el centro de Madrid. En él hemos celebrado, incluso, algún evento del interés de mis lectores.

Big Data

Requisitos para mi taller en el "I International Workshop on Advances in Functional Data Analysis"

Encuentro Big Data 2015 (.co)

#INKS2015

"Quién es Quién del Big Data en España 2015" y yo

Mis respuestas en una entrevista sobre "big data", periodismo de datos, etc.

Estrategias escalables con R

Y todo ocurre en un abrir y cerrar de ojos

Adaequatio rei et analysis

Hackatón de datos abiertos, 21 de febrero en Madrid

Si participase en MadData...