Seis asuntos sobre modelización estadística, incluyendo un problema que no parece del todo trivial
Sobre catboost
Todavía no he usado catboost
en ningún proyecto serio, aunque tiene la pinta de ser la evolución más sofisticada de todos las variantes existentes del boosting. Ya escribí al respecto aquí y hoy traigo dos enlaces adicionales de José Luis Cañadas, un usuario muy entusiasta. Una sobre el tratamiento de las
variables categóricas
y otro sobre la
regresión por cuantiles.
Ajuste bayesiano de un modelo con censura
Lo presenta el maestro Juan Orduz aquí que, como todos, no para mientes al hecho no totalmente evidente de que la verosimilitud de una densidad mixta (continua y discreta a un tiempo) es la que se postula que es (véase cómo arranca la sección Censored Gamma Model).
Un tipo extraño de problema de modelización estadística
Aquí se plantea un extraño problema estadístico. No se trata solo de construir y ajustar un modelo estadístico a unos datos sino de resolver luego con él un problema que no había visto antes. En concreto:
- Las predicciones del modelo son —o se espera que sean— crecientes en las variables de entrada.
- Se parte de unos valores $x_{0,1}, \dots, x_{0,n}$ concretos para los que hay una predicción dada (irrelevante).
- Se busca el máximo de la predicción para unos valores $x_{1,1}, \dots, x_{1,n}$ de modo que $d_i = x_{1,i} - x_{0,i} > 0$ y $\sum d_i \le T$.
¿Cómo lo tratarías de resolver?
Visualización del efecto de las variables de un modelo en R y Python
effectplots
en R y
model-diagnostics
en Python
permiten visualizar el efecto de las variables de un modelo a través de gráficos como los que se muestran
aquí.
Lo que siempre se nos olvida al hacer clústers
Frank Harrell, a resultas de algún estudio mejorable que ha llegado a sus manos, nos recuerda aquí que generar clústers no es el final sino el principio de un proceso en el que hay que, como poco, estudiar su estabilidad y significancia.
Reflexiona sobre qué esperas obtener antes de realizar un análisis estadístico
Me recuerda mucho a lo que escribí hace unos meses sobre la causalidad esto que nos trae Andrew Gelman acerca del proceso del análisis estadístico, la construcción de modelos, gráficos, etc.