Estadística vs aprendizaje automático y algunos asuntos más

Cuando comparo valores reales contra estimados/predichos, tengo la costumbre de colocar los valores observados en el eje horizontal y las predicciones en el vertical. Así puedo ver si yerro por exceso o por defecto (con respecto a la línea, típicamente roja, $y = x$). Sin embargo, tanto en este artículo como en esta entrada de blog, se argumenta en favor de lo contrario.

Hay una diferencia sustancial entre el bayesianismo abstracto y el aplicado (o computacional): el primero siempre habla de aprendizaje secuencial y de encadenamiento de posterioris: la posteriori de un primer estudio con unos datos parciales se convierte automáticamente en la priori de uno posterior con un conjunto de datos adicional. En la versión práctica, solo es posible en ciertos casos concretos (p.e., cuando hay distribuciones conjugadas) pero no en general. En general uno obtiene una descripción de la posteriori en términos de una serie de muestras que no hay forma de utilizar después como priori. Sin embargo, pasan cosas como esta o esta

Aquí, alguien propone una alternativa al término caminos que se bifurcan (en inglés, forking paths). Uno de los argumentos que esgrime para dejar de usar la expresión es que solo resuena en quienes han leído a Borges. Aquí nos gusta particularmente por eso.

Una de mis obsesiones es el estudio de las interacciones en los modelos y todo lo que podemos aprender de ellas. Pero en Dear Political Scientists: The binning estimator violates ceteris paribus, los autores de DataColada muestran cómo en ciertas situaciones, la no-linealidad puede hacer aflorar interacciones espurias.

La regla general es no mostrar más dígitos que los verdaderamente significativos (creía haber tratado el tema previamente, pero parece que no). Sin embargo, Dynomight discrepa: quiere ver muchos dígitos para, en particular, ser capaz de detectar fraude (y, en general, de tener cierta evidencia acerca de las operaciones realizadas).

Aquí discute Gelman la diferencia entre análisis estadístico (y, en particular, bayesiano) y aprendizaje automático:

  • Aprendizaje automático: para situaciones con muchos datos y mínima estructura (conocida).
  • Estadística: estructura conocida y prioris fuertes.