"Quién es Quién del Big Data en España 2015" y yo
Me confiman que figuro en el Quién es Quién del Big Data en España 2015.
Aprovecho para agradecer encarecida y públicamente la gentileza de los autores del estudio.
Me confiman que figuro en el Quién es Quién del Big Data en España 2015.
Aprovecho para agradecer encarecida y públicamente la gentileza de los autores del estudio.
Aunque no hay una definición exacta sobre la minería de datos… ¿cómo definiría usted Big Data?¿Qué herramientas utiliza usted para la búsqueda de datos? (públicas o privadas)
Dicen los marxistas –aunque el concepto es anterior– que un cambio cuantitativo, a partir de cierto umbral, desencadena un cambio cualitativo. Las empresas, las instituciones públicas, etc. siempre han almacenado y estudiado estadísticamente datos a nivel de subsidiaria, departamento, provincia, oficina, región, producto, etc. Solo recientemente han visto que es técnicamente posible estudiar sus datos a nivel de individuo (ciudadano, cliente, etc.). Eso ha implicado que el tamaño de los conjuntos de datos han crecido (ahí el cambio cuantitativo) en varios órdenes de magnitud (¿tres? ¿cuatro?). El cambio cualitativo concomitante es lo que llamamos big data.
Recomiendo leer Scalable Strategies for Computing with Massive Data, un artículo que trata dos de los problemas de escalabilidad con que tropezamos los usuarios de R:
bigmemory
.foreach
.En el artículo no solo discute los dos paquetes por separado sino que ilustra, además, cómo usarlos conjuntamente en su propuesta de estrategia escalable con R.
Abres una aplicación en tu móvil que diseñó un programador búlgaro. Ipso facto aparece un insidioso banner de, p.e., Jazztel. ¿Cuáles son los mecanismos que ponen en contacto al búlgaro con Jazztel? ¿De qué manera recibe aquél una compensación de esta?
Tradicionalmente, el desarrollador habría hablado con, p.e., Google. Le habría dicho: yo voy a generar “espacios” donde tú vas a poder colgar propaganda a cambio de una cantidad (fija o variable). El intermediario, por otra parte, capta anunciantes (Jazztel en nuestro ejemplo), almacena un inventario de ellos y decide cuál de ellos mostrar. Hay teoría aplicable en estos contextos, como la que describe Real-Time Bidding Algorithms for Performance-Based Display Ad Allocation.
Tal será el título de la charla de una hora que daré en el Big Data Science Fighters en abril.
El título es una adaptación de este latinajo y lo usufructo más en la forma que en la sustancia, que la del original se me escapa. El mío servirá para condensar el cúmulo de problemas que he venido detectando en este mundo del análisis de datos: la falta de adecuación de las herramientas de almacenamiento, procesamiento y análisis de datos a la cosa. Y no me restringiré a las de hierro (¡o silicio!) o a las ristras de ceros y unos: también haré un repaso de algunas de las teóricas.
El día 21 de febrero (de 2015) tendrá lugar en Medialab-Prado (¿cómo llegar?) un hackatón de datos abiertos patrocinado por Medialab-Prado y Open Knowledge Spain. El resto de la información puede consultarse aquí.
Dicho lo cual, ¿deberías ir?
Pues si tienes 45 años, eres profesor de la Autónoma, etc. lo sabes tú mejor que yo.
Pero si tienes veintitantos, estudias, has comenzado a trabajar recientemente o estás en el paro, si tienes inquietudes (y las tienes si lees esto), si quieres conocer técnicas nuevas, problemas nuevos, contactar con gente interesante, etc., el día 21 coge tu portátil y acude.
El otro día ayudé a divulgar por aquí MadData, el datatón de datos abiertos del ayuntamiento de Madrid. Algunos me habéis preguntado si participaré. Pero estoy lejos (y, muy, muy ocupado).
Eso sí, os voy a contar dónde me gustaría meter la cuchara. En datos del ayuntamiento de Madrid, claro. Pero no los abiertos, ni los públicos, ni los conocidos. Sino los otros.
Os pongo en precedentes. Sabréis —si habéis seguido estas páginas— que soy el copropietario de MartinaCocina, un local que no sé si clasificar como cafetería o restaurante, en el centro de Madrid. En él hemos celebrado, incluso, algún evento del interés de mis lectores.
Copio (adaptándolo) de aquí:
_everis y MadridEmprende organizan el primer Open Datathon de Madrid.
La competición consiste en crear soluciones innovadoras a partir del uso de datos abiertos. MADdata pondrá a disposición de cada participante datos de la ciudad de Madrid, procedentes del portal de datos abiertos del Ayuntamiento, de servicios públicos, de transporte y movilidad y de redes sociales._
La inscripción está abierta hasta el 25 de julio de 2014.
Finalmente, he aquí una frase del anuncio que me hace mucha gracia:
Me he puesto en modo estoy serio con Spark. Lo instalé en mi ya manida máquina virtual (voy a subir una nueva versión de ella pronto), pero hoy la voy a instalar en mi portátil. Y con la idea de, en los próximos días, montar un clúster en condiciones.
Los pasos son los siguientes:
/opt
y, opcionalmente, cambiar propietarios y grupos (a root
).sudo ln -s /opt/spark-1.0.1-bin-hadoop1/ /opt/spark
/opt/spark/bin/pyspark
En la consola, ahora, se puede ejecutar: