Big Data

Universo y muestra: un ejemplo muy didáctico en el que La Caixa lo hace todo mal

Los manuales de estadística al uso introducen los conceptos de universo y muestra y tienden a ilustrarlos con ejemplos buenos. Pero los ejemplos buenos son útiles solo hasta cierto punto: ilustran, como digo, pero ni caracterizan ni delimitan. Los ejemplos malos, sin embargo, son muy útiles porque ayudan a trazar una frontera entre lo que es y lo que no es permisible.

Pero, ¿de dónde sacar buenos ejemplos malos? Aunque no es fácil, nuestros colegas de La Caixa Research han tenido la gentileza de ponernos uno a huevo: es Los precios de la luz están por las nubes, ¿y el importe de su recibo? (que ha sido recogido y glosado por el inefable elDiario.es aquí).

Electricidad, clima, incentivos y... ¿fetichismo de la ciencia de datos?

En una época hube de aprender los entresijos del mercado eléctrico español. Tan lejana que el garbage collector ha hecho almoneda de todos los conocimientos monetizables que pude haber adquirido. Solo he sabido conservar cierta curiosidad por esa API que el sistema tiene para conmigo que son las tarifas y las facturas.

Por eso no mandé directamente a la papelera ese correo de Endesa en el que me informaba de la conveniencia —¿para quién?— de que me pasase a la tarifa Tempus Lunes —¿o Mondays?—: un precio único (¿bueno? ¿malo? no sé) por el kWh y lo que consuma los lunes, gratis.

Varian sobre el muestreo

Guardaba una nota sobre cierto artículo de Varian en el que se refería a la utilidad del muestreo en el mundo del big data. Creo que es Big Data: New Tricks for Econometrics, donde se lee:

If the extracted data is still inconveniently large, it is often possible to select a subsample for statistical analysis. At Google, for example, I have found that random samples on the order of 0.1 percent work fine for analysis of business data.

¿Irán por aquí los tiros en el futuro de la "ciencia de datos"?

Para muchos, el futuro de la llamada ciencia de datos seguirá la estela dejada por

y sus continuadores usando cosas deep. Pero a la vez, sin tanto estruendo y con una mucho menor cobertura mediática, otros están trazando una ruta alternativa que ilustran artículos como Bayes and Big Data: The Consensus Monte Carlo Algorithm (atención todos a lo que hace uno de sus coautores, Steven L. Scott, que convierte en oro todo lo que toca). Como abrebocas, su resumen (con mi subrayado):

La reedición del sueño de Laplace

Dejó escrito Laplace:

Podemos mirar el estado presente del universo como el efecto del pasado y la causa de su futuro. Se podría concebir un intelecto que en cualquier momento dado conociera todas las fuerzas que animan la naturaleza y las posiciones de los seres que la componen; si este intelecto fuera lo suficientemente vasto como para someter los datos a análisis, podría condensar en una simple fórmula el movimiento de los grandes cuerpos del universo y del átomo más ligero; para tal intelecto nada podría ser incierto y el futuro, así como el pasado, estarían frente a sus ojos.

Hoy estoy participando en un evento sobre "big data"

Hoy estoy participando en la mesa redonda que cierra este evento. Espero dejar claro, cuando menos:

  • Qué quiere decir un cliente cuando dice que necesita big data: excel no da más de sí, tenemos a la gente copiando y el valor de una celda de aquí y pegándolo en un correo allá, etc.
  • Qué quiere (o debería querer) decir un consultor cuando vende big data: te voy a ayudar a automatizar ciertas tareas que tienen que ver con datos.
  • Qué es lo que no se debe tratar de automatizar: la generación y evaluación de modelos (si es que se llega siquiera a construir modelos).
  • Qué es lo automatizable: todo lo que se hace a fuerza de ratón.

Vox clamantis in deserto según unos, edgelord, según otros.

Sobre lo de Cambridge Analytica

Ni de lejos mi tema favorito. De todo este tinglado de la práctica comercial de la ciencia de datos, lo que tiene como sujetos a sujetos de carne y hueso es lo que menos me atrae. No quiero saber nada sobre escarbar en Twitter, Facebook o Linkedin. Me aburre soberanamente todo lo relativo a las leyes de protección de datos y trato en la medida de lo posible mantenerme al margen de discusiones sobre privacidad, big data y similares, que son puros contrastes de ocurrencias.

Sobre ciencia de datos en UNIR: teoría y gente

Hoy (jueves) he participado en un desayuno de trabajo organizado en la UNIR como pistoletazo de salida a un curso de inteligencia artificial en el que tendré una pequeña participación.

Nos ha tocado presentarnos a todos (había gente de Telefónica, Santander, Mapfre, Siemens, etc.) y según avanzaba la ronda han ido superándose peligrosamente las dosis máximas diarias establecidas por la OMS para la el impacto auditivo de palabras tales como disruptivo, futuro, innovación, coche autónomo, fabuloso y nosotros.

Big vs small data en estadística aplicada aplicada

Tengo un proyecto entre manos. Trata de medir un efecto pequeño bajo una condición experimental (una palanca que se puede subir y bajar) con un enorme ruido de fondo (debido a factores para los que no existe la susodicha palanca). Existen dos aproximaciones que, en su versión resumida, son:

  • Datos pequeños: recoger un conjunto pequeño de mediciones en un contexto en el que los factores no controlables sean constantes (aunque en la práctica no lo vayan a ser).
  • Datos grandes: recoger muchas mediciones alterando el factor controlable a lo largo de un periodo de tiempo extenso.

Se supone —y lo advierto, sobre todo para evitar que algún purista quiera señalar que lo es— en ambos casos, que existe cierta aleatorización del factor experimental para que sea lo más ortogonal posible al ruido no controlado.

Requisitos para mi taller en el "I International Workshop on Advances in Functional Data Analysis"

El jueves día 12 tengo un taller de cuatro horas en el I International Workshop on Advances in Functional Data Analysis. Siendo internacional (y el material está en inglés), me vais a permitir escribir el resto de la entrada urbi et orbi.

I will be presenting a hands-on workshop. Those attending it are invited to install a few tools in order to make the most of it during and after the sessions.

Encuentro Big Data 2015 (.co)

A fines de octubre participaré en el Encuentro Big Data 2015 en Bogotá. Formaré parte de una mesa redonda sobre formación (y políticas de formación) en este campo.

Tengo una postura poco convencional sobre esos temas y, me atrevería a decir, polémica en cuanto a la relación entre las administraciones públicas y las burocracias enseñativas y el hecho de que la gente explore, conozca y aprenda cosas como Spark. Aunque, supongo, quienes me han hecho el honor de invitarme no lo saben (aún).

#INKS2015

Ha salido publicada la guía INKS2015. Está dirigida a profesionales digitales y trata temas como el márketing digital, el SEO, las redes sociales o la usabilidad. Temas todos ellos que, aunque interesantes, no suelo tratar aquí.

Solo que la guía incluye esta vez una sección dedicada al big data y recoge un par de páginas mías (así como de un par de colegas: Ismael Herráiz y Rubén Casado) a las que igual queréis echar un vistazo.