Árboles

Unas notas sobre la sorprendente y contumaz persistencia histórica de las regresiones logísticas a trozos

Hace unos días publiqué una pequeña cita de Frank Harrell:

Las relaciones entre las variables casi nunca son lineales […]. Muchos de los que no han estudiado en profundidad los problemas del sesgo y la eficiencia creen que la presencia de relaciones no lineales se remedia tramificando las variables continuas en intervalos. Es lo más desastroso que pudiere hacerse.

Resulta que trabajo ahora en un sector que, un poco como todos, está enredado en lo que Yudkowsky llama un equilibrio inadecuado. De hecho, escribió un libro al respecto cuyo título completo es Equilibrios inadecuados: dónde y cómo las civilizaciones se quedan atrapadas. Estos equilibrios inadecuados adquieren formas distintas en sectores distintos y alguna vez me he ocupado en estas páginas de los que he sufrido en, p.e., la epidemiología.

El discreto encanto de los árboles olvidadizos

I.

A mediados de los ochenta, hubo un momento fundacional en la historia del aprendizaje automático: la aparición de los árboles de decisión. El artículo de Breiman sobre las dos culturas puede entenderse así: existe —o existía en esa época— la cultura de los que usan métodos estadísticos tradicionales y la de los que usan árboles de todo tipo.

Herramientas de minería de datos de entonces, tales como las que vendían SAS o IBM, no encerraban debajo del capó otra cosa —u otra cosa novedosa— que árboles de decisión propietarios. Por todo lo anterior había mucho interés en conseguir mejores árboles, árboles que permitiesen crear mejores modelos —en el sentido, claro está, de cometer errores pequeños—.