Sobre los límites de la minería de datos
Guardaba en la cartera un artículo que ya pronto cumple sus cinco años. Sirve de contrapunto a toda esa literatura que describe la minería de datos como una suerte de panacea, la cómoda senda hacia un futuro de armonía y color.
Se trata de una entrevista a Peter Fader sobre a lo que la minería de datos alcanza y no alcanza.
Los estadísticos se sienten relativamente cómodos ascendiendo de lo particular a lo general (por ejemplo, calculando una media). En contraposición, la promesa de la minería de datos consiste en la predicción del comportamiento de los individuos, de cada individuo, a partir de modelos construidos sobre repositorios de datos cada vez más extensos y perfiles más detallados de cada sujeto.
Distingue por tanto Fader entre propensión y comportamiento. El comportamiento, la acción que realiza un individuo concreto, está sujeto a una aleatoriedad tal, es tan etéreo, que, entiende, es inútil tratar de acotarlo (o adivinarlo) mediante modelos predictivos. Quien lo probó, lo sabe.
Nótese además, que una predicción de comportamiento tiene una doble vertiente: el qué y el cuándo. Y que muchas de las predicciones que uno encuentra (y construye) ignoran esa componente temporal.
¿La alternativa? El estudio de las propensiones, que afectan ya no tanto a individuos concretos sino a grupos de ellos. Defiende Fader, como alternativa a los modelos típicos de la minería de datos, lo que llama modelos probabilísticos —sin entrar en mayores detalles—. Una de sus pecularidades es que no precisan de tal cantidad de información —y, en particular, tantas variables— como los que gustan a los mineros de datos. Lo que le lleva a abogar por una especie de involución hacia el small data.