The Elements of Statistical Craftsmanship
En How Statistics lifts the fog of war in Syria se describe una solución al problema de estimar el número de víctimas en cierto lance de la guerra de Siria. Lo complicado del problema es que existen diversos recuentos independientes y las víctimas pueden aparecer en todos, alguno o ninguno.
Me llama la atención que el método utilizado sea el de los bosques aleatorios (en particular, el randomForest
de R). No sabría cómo utilizarlo para resolver este problema. Tampoco he tenido tiempo para entrar en los detalles.
Sin embargo, ya hablamos de ese mismo problema previamente en estas páginas. El planteamiento del problema descrito en ¿Cuántos peces hay en un lago? me parece superior.
Tengo la sensación de que muchos colegas insisten en utilizar esas herramientas genéricas que aparecen en los libros (sean redes neuronales, árboles aleatorios, bagging, etc.). En muchas ocasiones —pienso que esta lo es— son preferibles otro tipo de estrategias.
Por ejemplo, dudo que dentro del traductor automático de Google haya un bosque aleatorio gigante. Es probable, sin embargo, que debajo del capó uno pueda encontrar, por ejemplo, matrices de Markov utilizadas de alguna particularísima manera. O una miríada de micromodelos locales combinados de alguna particular manera (pero no necesariamente como se le ocurrió a Breiman urbi et orbi).
No sé qué nombre tiene esa disciplina que consiste en analizar datos sin utilizar ninguno de los recetarios —y que conste que lo digo con muchísimo respeto y admiración— que aparecen en The Elements of Statistical Learning, pero sugiero el de artesanía estadística.