Seis asuntos sobre modelización estadística, incluyendo un problema que no parece del todo trivial

Sobre catboost

Todavía no he usado catboost en ningún proyecto serio, aunque tiene la pinta de ser la evolución más sofisticada de todos las variantes existentes del boosting. Ya escribí al respecto aquí y hoy traigo dos enlaces adicionales de José Luis Cañadas, un usuario muy entusiasta. Una sobre el tratamiento de las variables categóricas y otro sobre la regresión por cuantiles.

Ajuste bayesiano de un modelo con censura

Lo presenta el maestro Juan Orduz aquí que, como todos, no para mientes al hecho no totalmente evidente de que la verosimilitud de una densidad mixta (continua y discreta a un tiempo) es la que se postula que es (véase cómo arranca la sección Censored Gamma Model).

Un tipo extraño de problema de modelización estadística

Aquí se plantea un extraño problema estadístico. No se trata solo de construir y ajustar un modelo estadístico a unos datos sino de resolver luego con él un problema que no había visto antes. En concreto:

  • Las predicciones del modelo son —o se espera que sean— crecientes en las variables de entrada.
  • Se parte de unos valores $x_{0,1}, \dots, x_{0,n}$ concretos para los que hay una predicción dada (irrelevante).
  • Se busca el máximo de la predicción para unos valores $x_{1,1}, \dots, x_{1,n}$ de modo que $d_i = x_{1,i} - x_{0,i} > 0$ y $\sum d_i \le T$.

¿Cómo lo tratarías de resolver?

Visualización del efecto de las variables de un modelo en R y Python

effectplots en R y model-diagnostics en Python permiten visualizar el efecto de las variables de un modelo a través de gráficos como los que se muestran aquí.

Lo que siempre se nos olvida al hacer clústers

Frank Harrell, a resultas de algún estudio mejorable que ha llegado a sus manos, nos recuerda aquí que generar clústers no es el final sino el principio de un proceso en el que hay que, como poco, estudiar su estabilidad y significancia.

Reflexiona sobre qué esperas obtener antes de realizar un análisis estadístico

Me recuerda mucho a lo que escribí hace unos meses sobre la causalidad esto que nos trae Andrew Gelman acerca del proceso del análisis estadístico, la construcción de modelos, gráficos, etc.