Anomalías, cantidad de información e "isolation forests"
Identificar a un tipo raro es sencillo: el que lleva tatuada a su madre en la frente. Identificar a un tipo normal es más complicado: altura… normal, pelo… ¿moreno? Es… como… normal, ni gordo ni flaco…
Identificar transacciones de tarjeta normales es prolijo: gasta más o menos como todos en supermercados, un poco más que la media en restaurantes, no tiene transacciones de gasolineras… Identificar transacciones fraudulentas es (o puede ser) sencillo: gasta miles de euros en las farmacias de los aeropuertos y nada en otros sitios.
Esta idea tiene que ver con nociones como la del minimum description length y la de la cantidad de información (que fue un tema recurrente en este blog hace casi 10 años). Y es la que explotan los isolation forests: son anómalas aquellas observaciones que podemos separar fácilmente del resto.