Ciencia De Datos

260GB... ¿es "big data"?

Un excompañero me contaba ayer que asistió a las jornadas Big Data Spain 2012 y le sorprendió lo pequeños que le resultaban los conjuntos de datos de los que se hablaba. En su trabajo existen (me consta) tablas de 1TB y nunca ha oído a nadie hablar de big data.

En particular, hablaba de un caso de negocio en el que se trataba un conjunto de datos de 260GB. Y las preguntas que lanzo a mis lectores son:

¿Cómo vivir en un mar de datos?

Pues martes, miércoles y jueves de esta semana voy a tratar de averiguarlo acudiendo a las Primeras jornadas “Vivir en un mar de datos” (del Big Data a la Smart Society) organizados por la Fundación Telefónica.

Si alguien se deja caer por allí, que me ubique y nos tomamos un café.

(Soy breve: por mi mala cabeza, he acabado apuntado a demasiados cursos de Coursera y otros MOOC a la vez. Y como aragonés, me niego rotundamente a reblar.)

RDataMining, un paquete para minería de datos con R

Comparto con mis lectores la noticia que he recibido del paquete (aún en ciernes) RDataMining. El objetivo de sus promotores es construirlo colaborativamente (¡se buscan programadores!) e incluir en él algoritmos publicados que no tengan todavía implementación en R.

Existen en R muchos paquetes útiles para la minería de datos. De todos ellos, me atrevería a recomendar el paquete [caret](http://cran.r-project.org/web/packages/caret/index.html) que, más allá de integrar diversos algoritmos, incluye funciones auxiliares útiles para seleccionar modelos, comparar la importancia de funciones, realizar validaciones cruzadas, etc. utilizando una sintaxis coherente y homogénea. Que es algo a lo que los autores de las APIs de los distintos paquetes prestan poca atención, desafortunadamente.

Las preguntas oportunas brillan por su ausencia

Se levantó un revuelo hace unos días en la profesión a raíz de la noticia de que Target había descubierto que una adolescente estaba embarazada antes que sus mismos padres. En el artículo se explica cómo lo hacen:

[…] identificó unos 25 productos que, cuando se analizaban juntos, le permitían asignar a cada cliente una “probabilidad de embarazo”. Más aún, podía estimar la fecha del parto con una gran precisión, de manera que Target podía enviar cupones de acuerdo con la fase del embarazo.

Limpieza de cartera y miscelánea de artículos

He decidido limpiar mi cartera. Llevo en ella unos cuantos artículos impresos que me acompañan desde hace mucho y que, por un lado, me da pena tirar y, por el otro, no me aportan en el día a día. Voy a reciclar el papel sobre el que los imprimí y, a la vez, dejar en enlace a ellos por si a mí un día (o a alguno de mis lectores otro) me da por volver sobre ellos. Son:

Localidad, globalidad y maldición de la dimensionalidad

Escribo hoy al hilo de una pregunta de la lista de correo de quienes estamos leyendo The elements of statistical learning.

Hace referencia a la discusión del capítulo 2 del libro anterior en el que trata:

  • El compromiso (trade off) entre el sesgo y la varianza de los modelos predictivos.
  • Cómo los modelos locales (como los k-vecinos) tienden a tener poco sesgo y mucha varianza.
  • Cómo los modelos globales (como los de regresión) tienden a tener poca varianza y mucho sesgo.
  • Cómo la _maldición de la dimensionalida_d afecta muy seriamente a los modelos locales y mucho menos a los globales.

Y voy a tratar de ilustrar esos conceptos con un ejemplo extraído de mi experiencia de consultor.

Comienza la lectura de “The Elements of Statistical Learning”

Mediante la presente, notifico a los interesados en la lectura de “The Elements of Statistical Learning” que esta semana tenemos que dar cuenta de los capítulos 1 (que es una introducción muy ligera) y 2 (donde comienza el tomate realmente).

Esta noche Juanjo Gibaja y yo estudiaremos la mecánica de lectura en común.

Los interesados pueden escribirme a cgb@datanalytics.com para, de momento, crear una lista de correo.

¿Nos leemos "The Elements of Statistical Learning" de tapa a tapa?

Propone Juan José Gibaja como propósito intelectual para el año nuevo el leer The Elements of Statistical Learning —libro que puede descargarse gratuita y legalmente del enlace anterior— de tapa a tapa, en grupo y a razón de capítulo por semana.

La idea es hacerlo en común, enlazando el contenido del libro con código —sea disponible o de nuevo cuño cuando la situación lo requiera— y haciendo públicos las ideas que resulten de esta lectura en una red de bitácoras (a la que esta pertenecería).

¿La correlación "del siglo XXI"?

Bajo el título Detecting Novel Associations in Large Data Sets se ha publicado recientemente en Science un coeficiente alternativo a la correlación de toda la vida para cuantificar la relación funcional entre dos variables.

El artículo (que no he podido leer: si alguien me pudiera pasar el pdf…) ha tenido cierto impacto, al menos momentáneo, en la red. Puede leerse un resumen en esta entrada u otro bastante más cauto en la de A. Gelman. Existe información adicional (e incluso código en R) en esta página.

DataWrangler: limpieza y transformación interactiva de datos

Quiero dar a conocer hoy una alternativa a Google Refine de la que he tenido noticia no hace mucho: DataWrangler.

Se trata de una herramienta concebida para acelerar el proceso de manipulación de datos para crear tablas que exportar luego a Excel, R, etc.

Los interesados pueden echarle un vistazo al artículo que escribieron sus autores, Wrangler: Interactive Visual Specification of Data Transformation Scripts y, cómo no, usarlo.

Predicciones a toro pasado y el perro que no ladró

Es fácil predecir a toro pasado. Casi tan fácil que asestarle una gran lanzada al moro muerto (el refranero es así de incorrecto políticamente, lo siento).

Esas son las ideas que me sugirieron fundamentalmente la lectura del un tanto hagiográfico Superordenadores para ‘predecir’ revoluciones y del artículo al que se refería, Culturomics 2.0: Forecasting large-scale human behavior using news media tone in time and space.

El artículo nos explica cómo utilizando resúmenes de noticias de diversas fuentes era posible haber predicho las revoluciones de Egipto, Túnez y Libia. Y, casi, casi, cómo haber encontrado a Bin Laden.