Explicación

Hay cosas obvias en las que uno no repara hasta que ve que otro les apunta con el dedo y les da un nombre. Luego no deja de verlas por doquier.

Una de ellas y que ahora encuentro en todas partes es la de la diversidad de explicaciones. Escribí sobre ello el otro día. Decía allí (citando un artículo de B. Ripley):

Si buscamos un modelo explicativo, deberíamos tener presente que puede haber varios modelos explicativos (aproximadamente) igual de buenos: lo aprendí […] tras haber hecho muchas selecciones informales de modelos en problemas aplicados en los que me hubiera resultado útil haber podido presentar soluciones alternativas.

Esta entrada la hago por petición popular y para rematar de alguna manera lo que incoé hace unos días. Seré breve hasta lo telegráfico:

Tomo las observaciones con scorings más altos (en un árbol construido con ranger y cariño).
Veo cuáles son los árboles que les asignan scorings más altos.
Anoto las variables implicadas en las ramas por donde bajan las observaciones (1) en los árboles (2).
Creo una matriz positiva: filas = casos, columnas = variables, valores = conteos.
Y la descompongo (vía NMF). 6. Etc.

Es hasta paquetizable.

El principal asunto preambular en todo lo que tiene que ver con la explicación de modelos es ético (ético en la versión ñoña de la palabra, hay que dejar claro). Pero tiene sentido utilizar técnicas de explicación de modelos para aportarles valor añadido. En particular, un modelo puede proporcionar un determinado scoring, pero se le puede pedir más: se le puede pedir una descripción de los motivos que justifican ese scoring, particularísimanete, en los casos más interesantes: los valores más altos / bajos.

Este es el primer año en el que en mi curso de ciencia de datos (hasta ahora en el EAE; a partir del año que viene, vaya uno a saber si y dónde) introduzco una sección sobre explicación de modelos.

Hay quienes sostienen que, mejor que crear un modelo de caja negra y tratar luego de explicar las predicciones, es recomendable comenzar con un modelo directamente explicable (p.e., un GLM). Por mucha razón que traigan, vox clamantis in deserto: hay y seguirá habiendo modelos de caja negra por doquier.

Así vendría a traducirse el título de este artículo, que trata de taxonomizar y sistematizar una serie de técnicas muy recientes para explicar modelos de caja negra.

Tal vez no acabe siendo la manera pero, sin duda, acabará habiendo una.

Explicación

Multiplicidad de modelos, multiplicidad de explicaciones: algunas consecuencias

Explicación de los scorings de "ciertos" modelos

Explicación de modelos como procedimiento para aportar valor a un "scoring"

Explicación de modelos

La gramática del análisis explicativo interactivo de modelos