Clustering (I): una pesadilla que fue real
Comienzo hoy una serie de entradas en seis entregas sobre una muy utilizada técnica de análisis de datos de la que soy un profundo detractor. Reconozco que uno de los motivos, aunque menores, de esta postura estriba en que carece de un nombre castizo y reconocido en español. Aunque por ahí gusta agrupación o agrupamiento, yo siempre he preferido arracimamiento: aparte de su valor visual, descarga el término grupo, manifiestamente sobreutilizado en muchos ámbitos.
Aparte de las estrictamente lingüísticas y eufónicas, tengo otros motivos por los que recelar de este tipo de técnicas que espero ir desgranando en las entradas sucesivas. Pero quiero comenzar con el relato de una pesadilla acaecida hace unos años que resume lo que se cuece en las trastiendas de sus valedores.
Trabajaba yo para una consultora especializada, entre otras cosas, en la llamada segmentación de clientes, una práctica de dudosa valía que los departamentos de marketing de determinadas empresas aplican de oficio. Consiste en partir la masa de clientes en determinados grupos (típicamente entre seis y doce) que comparten cierto tipo de características similares.
El quid de la cosa consiste en crear grupos accionables (que es otra manera de decir con interés para la empresa: básicamente, que respondan de una manera más o menos previsible a las acciones de marketing que se realicen sobre ellos), fáciles de describir, homogéneos con respecto a una serie de variables críticas, etc.
La segmentación de clientes no es un puro clústering: exige que los clústers obtenidos satisfagan determinados criterios. Por eso es típico seleccionar variables, transformarlas, remuestrear, modificar las condiciones iniciales de los algoritmos, etc. hasta que —aquí reside la clave— la segmentación obtenida se acomode a los criterios deseables preestablecidos. ¡No otro es, típicamente, el criterio de bondad!
La pesadilla de la que quiero dar cuenta comenzó un buen día en que mi compañero Julio y yo habíamos acabado nuestra segmentación para una importante empresa española y la habíamos presentado en petit comité con nuestros rutilantes powerpoints. La gran presentación habia de realizarse el día siguiente. El número de clústers, su tamaño aproximado, el nombre de cada uno de ellos, el blablabá marketiniano de por qué su sin par relevancia, etc. estaban ya cincelados en mármol y eran absolutamente inamovibles… hasta que descubirmos un inexcusable error en el cálculo de una de las variables más relevantes. ¡Oh, calamidad!
De las dos opciones obvias (ambas incompatibles con el nocturno reposo) que se nos ocurrieron, descartamos la, posiblemente, más honesta: reconocer el error, rehacerlo todo y asumir las, previsiblemente, acérrimas consecuencias. Conscientes no obstante de que los algoritmos de clústering, dada su dependencia en el muestreo ?no lo hacíamos sobre la población entera de varios millones de clientes sino sobre muestras de varias decenas de miles de ellos? y las condiciones iniciales, son sumamente inestables ?es decir, dos ejecuciones diferentes sobre dos muestras de la misma población pueden dar resultados totalmente distintos? probamos suerte.
Y, voilá, a las tantas de la mañana, a fuerza de muestrear e iterar, obtuvimos una segmentación sobre los datos corregidos que nos plugo: encajaba a la perfección con la descrita de antemano con los datos truchos.
Puede que alguien pueda realizar alegaciones de índole moral a todo esto que aquí confieso. Y que la discusión al respecto puede ser sumamente enriquecedora. No obstante, anuncio interesan más las de tipo técnico, que iré desarrollando en futuras entregas.