Ciencia De Datos

Minería de datos: promesas y realidades

Incluso a los que conocemos el mercado desde dentro, la lectura de artículos como éste nos descubre un asombroso brave new world. Tanto los nuevos métodos con que dizque se afrontan los problemas más pedestres (como la detección de fraude, la retención de los mejores clientes, etc.) como la misma naturaleza de las áreas en las que se aplican (lucha antiterrorista, predicción de motines, elecciones sangrientas, actos de represión,… ¡e incluso el lanzamiento de cohetes por parte de Hizbolá!) parecen anunciar que ya tocamos lo que Asimov llamaba psicohistoria con la yema de los dedos.

¿Puedes todavía vencer a un ordenador?

Los seres humanos estamos (todavía) de enhorabuena. Todavía sabemos hacer ciertas cosas mejor que los ordenadores. Podrán jugar al ajedrez mejor que nosotros, podrán ganarnos jugando a Jeopardy, etc. pero todavía sabemos, parece, resolver ciertos problemas mejor que ellos.

Reconociéndolo, bioinformáticos de la Universidad McGill han creado un juego que invita a humanos a resolver lúdicamente problemas que para un ser humano resultan relativamente sencillos pero frente a los que las máquinas parecen atragantarse. Consiste en la búsqueda y desciframiento de secuencias genéticas buscando relaciones entre segmentos de material genético de diversas especies. Los distintos nucleótidos se codifican con colores, se disponen en una malla y el juego consiste en buscar configuraciones en las que exista el mayor grado posible de coincidencia entre filas de ellas.

Nueva competición de minería de datos: reconocimiento de instrumentos musicales

TunedIT ha organizado una nueva competición de minería de datos, ISMIS 2011 Contest: Music Information Retrieval,  que forma parte del 19th International Symposium on Methodologies for Intelligent Systems.

Consta de dos tareas distintas:

  • reconocimiento automático de instrumentos musicales y
  • reconocimiento automático de estilos musicales.

Existen más de 200MB de datos que analizar y los premios son de 1000 USD por tarea.

Una solución a estos problemas sería útil a la hora de indexar, organizar y realizar búsquedas dentro de datos multimedia.  ¿Algún voluntario entre los lectores de esta bitácora?

Algoritmos de minería de datos en su contexto

El otro día apareció publicada en esta bitácora la noticia de un artículo en el que se enumeraban los top 10 de entre los algortimos de minería de datos. Nuestro compañero Andrés Gutiérrez se hizo eco de la noticia y, además, extrajo la lista.

He leído el artículo, he revisado la lista de los algoritmos elegidos, he leído los comentarios y tengo algunas objeciones que realizar.  No tanto por dejar constancia de ellas sino para evitar que los oropeles despisten a quienes se introducen en este mundo de la minería de datos.

La Wikipedia te necesita

Hoy, procrastinando, me he dado un paseo por la Wikipedia en español. Y me he deprimido viendo el lamentable estado en que se encuentran la mayor parte de las páginas de las categorías a las que concierne esta bitácora como, por ejemplo, las de

Quiero invitar a los lectores de este blog (a los que, por serlo, se les presupone un mínimo de interés y formación) a que participen en ese proyecto común que es la Wikipedia (y, en particular, la Wikipedia en español) para no tener que volver a sonrojarnos al comparar nuestras páginas con las correspondientes de otros idiomas.

Sin sexo por decisión judicial

Pues sí, nos quedamos sin sexo. Por culpa de unos jueces y una interpretación tan recta como corta de miras de nosequé leyes europeas.

La cosa viene de atrás: a la hora de categorizar clientes, usuarios o, en definitiva, personas en proyectos diversos de minería de datos (o en el cotidiando desempeño de los actuarios), ¿qué variables con información personal es legítimo utilizar? El uso de variables tales como raza, satisfacción de cuotas a algún sindicato, etc., legal o no, infringiría los códigos deontológicos más básicos. Pero, ¿el sexo?

¿Es realmente posible la anonimización?

Pues depende a quién se lo pregunte uno. Por ejemplo, el 56% de los encuestados por KDnuggets dijeron que sí. En cambio, uno de los lectores de este blog aventuró lo contrario.

Es curioso que este debate: pudo haberse abierto mucho tiempo atrás —p.e., son públicos los microdatos de la EPA y de muchas otras encuestas en España— pero que, de no habérseme pasado por alto, sólo ha despegado con particular virulencia a raíz de la popularización de estas competiciones de minería de datos de las que he hablado en alguna ocasión.

Liberado KNIME 2.2.2

Ha sido liberada la versión 2.2.2 de KNIME. De esta plataforma de minería de datos hablé hace un año en las I Jornadas de R en Murcia (puede verse aquí el vídeo de la conferencia). Me interesó mucho desde un principio porque fue de las pioneras en ofrecer una integración con R y porque permitía desarrollar de una manera sencilla módulos adicionales.

Es de esperar que R, KNIME, Rapidminer (del que también he hablado recientemente) y otras iniciativas emergentes se conviertan en una realidad cotidiana en el mundo de la empresa.

JDM: fuese y no hubo nada

Por salvaguardar del olvido algunas entradas que hice en un blog que ya no existe años ha, reproduzco acá otra que sólo se entenderá retrasando las manecillas de los relojes y reemplazando hojas en los anaqueles hasta hará cosa de cinco años atrás.

Fue tal como sigue:

JDM es un proyecto de especificación de una API unificada y estandarizada para facilitar el desarrollo de actividades de minería de datos. Actualmente, la versión 2.0 de dicha API está en proceso de discusión. Colaboran en su desarrollo algunas de las principales empresas del sector.

Datanalytics: segunda posición en competición internacional de minería de datos

Me es más que grato anunciar que he alcanzado la segunda posición en el IEEE ICDM Contest: TomTom Traffic Prediction for Intelligent GPS Navigation (sección de tráfico):

La competición constaba de tres partes (o subcompeticiones) distintas relacionadas con la predicción de ciertos aspectos relacionados con el tráfico en Varsovia:

  • una para predecir el número de coches circulando por diez segmentos de calle de Varsovia a partir de recuentos durante los minutos previos;
  • otra para predecir segmentos de calle donde se van a producir atascos a partir de la lista de otros que han ido atascándose previamente y
  • una final para predecir la velocidad media del tráfico en determinadas calles a partir de datos de posición y velocidad enviados por sistemas de GPS instalados en un porcentaje de los vehículos a un servidor central.

He logrado la segunda posición en la primera de ellas (usando R, obviamente) y espero redactar pronto un informe sobre la estrategia y métodos utilizados de cara a su posible publicación en las actas de la IEEE International Conference on Data Mining 2010 (ICDM10), que tendrá lugar en Sydney en diciembre.

Muestreando bases de datos

Aunque el concepto de minería de datos esté casi indisolublemente asociado al de bases de datos enormes, en la práctica, el análisis y desarrollo de los modelos se realizan sobre muestras pequeñas.

Esencialmente, para lo que nos ocupa, es pequeño un conjunto de datos que cabe en la RAM de un PC. Actualmente son habituales las máquinas con 1 GB. A modo de comparación, la base de datos de clientes de una de las mayores compañías españolas y en la que trabajé hace un tiempo venía a ocupar 5 GB.