Ciencia De Datos

Los siete pecados capitales de la minería de datos

Por ser viernes, traigo a estas páginas un vídeo tan pedagógico como ameno. Es la conferencia de Dick De Veaux dentro la M2010 Data Mining Conference auspiciada por SAS.

El autor repasa los siete pecados capitales de la minería de datos, a saber

  1. No realizar las preguntas adecuadas
  2. No entender el problema correctamente
  3. No prestar suficiente atención a la preparación de los datos
  4. Ignorar lo que no está ahí
  5. Enamorarse de los modelos
  6. Trabajar en solitario
  7. Usar datos malos

Frente a ellas, propone las siguientes virtudes:

Clústering (II): ¿es replicable?

Sólo conozco un estudio ?y lo digo bona fide; si alguno de mis lectores conoce otro, le ruego que me lo indique? en el que las técnicas de clústering hayan sido rectamente aplicadas. Se trata del artículo Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring de cuyo resumen extraigo y traduzco lo siguiente:

Un procedimiento de detección de clases automáticamente descubrió la distinción entre la leucemia mieloide aguda (AML) y la leucemia linfoblástica aguda (ALL) sin conocimiento previo de las clases. Después se construyó un predictor de clases…

Clustering (I): una pesadilla que fue real

Comienzo hoy una serie de entradas en seis entregas sobre una muy utilizada técnica de análisis de datos de la que soy un profundo detractor. Reconozco que uno de los motivos, aunque menores, de esta postura estriba en que carece de un nombre castizo y reconocido en español. Aunque por ahí gusta agrupación o agrupamiento, yo siempre he preferido arracimamiento: aparte de su valor visual, descarga el término grupo, manifiestamente sobreutilizado en muchos ámbitos.

Google Refine para analizar, estudiar y limpiar los datos

En esta entrada de hoy, hija de la pereza, reproduzco un vídeo que el lector puede encontrar igualmente en Medialab Prado. Es una presentación de Javier de la Torre, de Vizzuality, una compañía que trabaja en un campo del que nos hemos venido ocupando en estas páginas: la visualización de la información. La presentación tuvo lugar el 15 de febrero de 2011 dentro del evento Barcamp: periodismo de datos. Trata sobre Google Refine.

Diez mandamientos del análisis de datos

Extraigo de la bitácora de Rob J Hyndman y de una manera que roza el plagio mi entrada de hoy. Recoge diez reglas, diez mandamientos para el análisis de datos (en realidad, para el análisis econométrico, pero pueden trasladarse casi sin cambios al ámbito general) propuestas por Peter Kennedy. Son las siguientes:

  1. Usa el sentido común (y la teoría económica)
  2. Evita el error de tipo III (encontrar la respuesta adecuada a la pregunta incorrecta)
  3. Conoce el contexto
  4. Inspecciona los datos
  5. KISS (Keep It Sensibly Simple)
  6. Asegúrate de que tus resultados tienen sentido
  7. Considera los beneficios y los costes de la minería de datos
  8. Estáte preparado para aceptar soluciones de compromiso
  9. No confundas significancia con relevancia
  10. Acompaña tus resultados de un análisis de la sensibilidad

El lector interesado puede echar un vistazo a la discusión de estas reglas.

La historia de CART (una segunda parte)

Los árboles de decisión representan la familia de métodos de minería de datos más empleados. Y no sé si todos mis lectores están al tanto de sus orígenes. La verdad es que ya escribí al respecto, hace tiempo, cuando hacía mis primeros pinitos en el mundo de las bitácoras y escribía en la de Raúl Vaquerizo. Entonces publiqué una entrada sobre la historia de CART y rpart de su implementación en R.

Sobre la encuesta sobre minería de datos de Rexer Analytics

Hace unos días se publicaron los resultado de la cuarta encuesta anual de minería de datos realizada por Rexer Analytics en la que 735 participantes de 60 países completaron sus 50 preguntas. Los hechos más relevantes que contiene son:

  • La principal aplicación de la minería de datos (siempre pienso que desgraciadamente) es en el campo de la gestión (o inteligencia) de clientes, lo que por ahí denominan CRM.
  • Los algoritmos más usados por los encuestados han sido árboles de decisión, regresión y análisis de conglomerados.
  • En cuanto a las herramientas, la más utilizada es R. El 43% de los encuestados afirmaron haberlo usado. Sin embargo, como herramienta básica de trabajo, la más usada parece ser STATISTICA, usada por un 18% de los encuestados. Las herramientas mejor valoradas fueron STATISTICA, IBM SPSS Modeller y R.
  • La mayor parte del análisis siguie realizándose en ordenadores personales, con los datos almacenados en local. Lo mismo ocurre a la hora de realizar el scoring. Los usuarios que más utilizan PMML son quienes emplean STATISTICA.

Y más detalles pueden descargarse de la página de la encuesta.

Un curso completo de minería de datos en Youtube

CITRIS (Center for Information Technology Research in the Interest of Society) está subiendo a su canal de Youtube los vídeos de las clases de un curso de minería de datos impartidos por el profesor Ram Akella en la Universidad de Berkeley.

Están disponibles los vídeos del:

Un rol de herramientas de minería de datos

¿Cuántas herramientas de minería de datos puedes enumerar? ¿Cuántas dirías que existen en el mercado? Una búsqueda naïf en Google todavía conduce a un añejo artículo de 1998 con el que no sé cuántas veces habré tropezado ya.

Pero recientemente ha sido publicado un artículo de R. Mikut y M. Reischl que pone la lista al día: Data Mining Tools. Además de una categorización de las herramientas disponibles, información sobre cuota de mercado y otros datos concomitantes, incluye una serie de listas de herramientas así como el enlace (que no he encontrado en parte alguna) a una hoja de Excel con información sobre 269 de ellas (195 actuales y 74 antiguas).

Personal data mining

La Edge Foundation es una organización que se postula algo así como el club de los hombres extraordinarios. Quienes forman parte de ella no dejan de hablar bien de sí mismos y se autoepitetan de multitud de cosas la mar de estupendas: brillantes, sagaces, etc.

Esta asociación propone anualmente una pregunta para promover el debate. La del año 2011 fue (y no me atrevo a traducirla por si la rompo): What scientific concept would improve everybody’s cognitive toolkit? Docenas de expertos enviaron propuestas. De entre todas ellas, la más simpática me pareció la de John Allen Paulos (del que ya hemos hablado previamente en esta bitácora), que sugirió las distribuciones de probabilidad. Muy cerca queda la de M. H. Wolpoff, que propuso el concepto GIGO (garbage in, garbage out) que le sería muy provechoso a cierta gente que conozco.

¿Cuál es la esencia de la estadística?

¿Qué tienen que ver minería de datos y estadística? Podría opinar personalmente sobre el asunto, pero serviré en esta ocasión de pregonero de las ideas que Jerome H. Friedman dejó escritas al respecto. Aunque el artículo tiene ya sus casi quince años, las ideas que contiene están todavía en plena vigencia.

Comienza el artículo Friedman con un ejercicio irónico acerca de la fiebre del oro que generó (y sigue generando muchos años después) esa disciplina que se dio en llamar minería de datos. Así, se plantea hasta qué punto se trata más de una actividad comercial que propiamente académica; y al respecto comenta cómo, al igual que en casi todas las fiebres del oro que han existido la verdadera rentabilidad está en mining the miners. En plata, sacarles la ídem a los mineros; en particular, vendiéndoles herramientas taumatúrgicas a precios aúricos.

Minería de datos: promesas y realidades

Incluso a los que conocemos el mercado desde dentro, la lectura de artículos como éste nos descubre un asombroso brave new world. Tanto los nuevos métodos con que dizque se afrontan los problemas más pedestres (como la detección de fraude, la retención de los mejores clientes, etc.) como la misma naturaleza de las áreas en las que se aplican (lucha antiterrorista, predicción de motines, elecciones sangrientas, actos de represión,… ¡e incluso el lanzamiento de cohetes por parte de Hizbolá!) parecen anunciar que ya tocamos lo que Asimov llamaba psicohistoria con la yema de los dedos.

¿Puedes todavía vencer a un ordenador?

Los seres humanos estamos (todavía) de enhorabuena. Todavía sabemos hacer ciertas cosas mejor que los ordenadores. Podrán jugar al ajedrez mejor que nosotros, podrán ganarnos jugando a Jeopardy, etc. pero todavía sabemos, parece, resolver ciertos problemas mejor que ellos.

Reconociéndolo, bioinformáticos de la Universidad McGill han creado un juego que invita a humanos a resolver lúdicamente problemas que para un ser humano resultan relativamente sencillos pero frente a los que las máquinas parecen atragantarse. Consiste en la búsqueda y desciframiento de secuencias genéticas buscando relaciones entre segmentos de material genético de diversas especies. Los distintos nucleótidos se codifican con colores, se disponen en una malla y el juego consiste en buscar configuraciones en las que exista el mayor grado posible de coincidencia entre filas de ellas.