Unas cuantas notas sobre estadística, teoría y de la decisión y otras cuestiones
Un artículo sobre cómo crear intervalos de predicción conformes en modelos de ML, en particular con modelos basados en XGBoost. Y otro, este, sobre cómo inferir el tamaño muestral a partir de su anchura.
También de John D. Cook, ODE to Fisher’s transform. Aparentemente, para normalizar el coeficiente de correlación se puede aplicar una transformación en la que interviene atanh y cuya derivación exige resolver una ecuación diferencial ordinaria. Por su parte, la ecuación diferencial surge de igualar el desarrollo de la curtosis a cero.
Be Mindful of the Time construye modelos que voy a intentar aplicar en proyectos que tengo entre manos cuando encuentre la ocasión. Brevemente, se trata de unos modelos de Markov con transiciones entre varios estados a lo largo del tiempo. Que viene a ser casi cualquier cosa que merezca la pena analizarse.
En Measures of Central Tendency for an Asymmetric Distribution, and Confidence Intervals, Frank Harrell compara medidas de centralidad robustas (como la media) para distribuciones asimétricas y concluye que la seudomediana (o estimador de Hodges–Lehmann) es la ganadora. Leyendo lo anterior descubrí, además, el artículo New distribution-free quantile estimator, que me habría venido bastante bien cuando trabajaba con menos datos que ahora.
Estoy investigando qué puedo rascar de Minimal-Assumption Estimation of Survival Probability vs. a Continuous Variable para resolver un problema que tengo encima de la mesa: la calibración de modelos a partir de una única variable continua. Creo que Harrell –aunque su problema es más ambicioso— y yo transitamos las mismas ideas (aunque, ¿hay más?)
Question 1: why are questionnaires in trouble? discute la creciente ineficacia de los cuestionarios. Aunque envuelto en referencias eruditas, el núcleo de la discusión es que la gente está dejando de responderlos. Relacionado con lo anterior: en The war on data, 2025 edition:, Andrew Gelman actualiza un artículo que escribió tiempo atrás sobre el mismo tema y en el que hace un repaso sobre el estado de la cosa en 2025. No es optimista al respecto.
Hay un nuevo libro sobre visualización de datos espaciales en R usando el paquete tmap.
Jessica Hullman anuncia y describe el contenido detallado de un nuevo curso sobre teoría de la decisión (en el que se menciona la inteligencia artificial varias veces) aquí.
El sesgo húmedo (o wet bias) consiste en la sobrestimación de la probabilidad de lluvia en las predicciones meteorológicas. Parece intencionado y tiene el objetivo de hacer las predicciones más conservadoras y útiles.