predicción

¿Escenarios jerárquicos? (para encuestas electorales en contextos multipartidistas)

Existe una brecha conceptual entre los pronósticos electorales, que son continuos y cómo percibimos los resultados, de manera discreta: p.e., el partido X y el partido Y suman (o no). Después de las elecciones, sobre todo de muchas de las últimas, el público siente perplejidad (frente a los resultados que acaban siendo) a la vista de las predicciones que se hicieron. Y los hacedores de pronósticos publican el consabido artículo explicando que esos escenarios que acabaron sucediendo estaban de alguna manera recogidos en sus (en el óptimo de los casos) histogramas.

¡Bien por AIReF!

Años ha, cuando quería mostrar gráficos como tenía que irme al extranjero. Pero hoy he estado hojeando el informe sobre la actualización del programa de estabilidad 2019-2022 de AIReF, he visto cosas como y me he emocionado mucho.

Reglas de "scoring" impropias: un ejemplo

Todo lo que he venido escribiendo sobre reglas de scoring propias vino en el fondo motivado por Damage Caused by Classification Accuracy and Other Discontinuous Improper Accuracy Scoring Rules, una entrada en el blog de Frank Harrell en la que se discute el siguiente caso: El tipo simula unos datos para ser ajustados mediante una regresión logística (de manera que conoce la verdad subyacente). Construye varios modelos alternativos para ajustarlos. Utiliza varios scorings distintos para seleccionar el mejor modelo.

Scorings: interpolando (y extrapolando) entre el de Brier y el lineal

Rápidamente y para poner el limpio unas cosas que tenía en borrador. El scoring lineal del que me he ocupado en entradas anteriores (p.e., esta o esta) está asociado a un exponente $latex \lambda = 1$ y el de Brier, a $latex \lambda = 2$. Entre ambos (y a la derecha del 2) hay otros scorings posibles. Una penalización de $latex (1-p)^\lambda$ (véanse las entradas enlazadas más arriba para averiguar a qué me refiero), un predictor tiene un incentivo para modificar su predicción para alcanzar un scoring más alto, salvo en el caso en que $latex \lambda = 2$, en el que le compensa ser lo más sincero posible.

Mejores predictores: un ejemplo (el de Brier)

La entrada de hoy casi me la escribe un comentarista (al que le estoy muy agradecido) ayer. Retomo el tema. Ayer premiaba a cada predictor con $latex p(X)$, es decir, le daba $latex p$ punticos si ocurría $latex X$ y $latex 1-p$ punticos sin no ocurría. La cosa no cambia si nos alineamos con lo que está escrito por ahí y en lugar de premiar, penalizamos. Es decir, si en lugar de maximizar $latex p(X)$, buscamos minimizar $latex 1 - p(X)$.

Una de las mil maneras malas de elegir al mejor predictor

El contexto, ayer. La cosa es que se nos podría ocurrir premiar a los predictores cuando asignan probabilidad alta a los sucesos que ocurrieron y baja a los que no. Por ejemplo, si el evento $latex i$ ocurre, premiar al predictor con $latex p_i$ y si no ocurre, con $latex 1 - p_i$. Escrito de otra manera, con $latex p_i(X_i)$ (que quiere decir la probabilidad correspondiente al evento observado). Como hay varios eventos, cada predictor se llevaría un premio igual a $latex s = \sum_i p_i(X_i)$ y sería mejor aquél predictor con el mayor valor de $latex s$.

¿Quién será el mejor predictor? ¿Cómo se podrá medir?

He tropezado con un problema nuevo y sobre el que escribiré más estos días. Hoy y aquí solo lo formulo. Existe una serie de eventos dicotómicos $latex X_i$ que pueden ocurrir o no ocurrir, cada uno de ellos con su probabilidad real (pero desconocida) de ocurrencia $latex q_i$. Antes de que ocurran o no, a dos expertos se les preguntan las probabilidades de ocurrencia de dichos eventos y producen predicciones $latex p_{1i}$ y $latex p_{2i}$.

Clasificación vs predicción

Traduzco de aquí: Es crucial distinguir predicción y clasificación. En el contexto de la toma de decisiones, la clasificación es una decisión prematura: la clasificación combina predicción y decisión y usurpa al decisor la consideración del coste del error. La regla de clasificación tiene que reformularse si cambian las recompensas o la base muestral. Sin embargo, las predicciones están separadas de las decisiones y pueden ser aprovechadas por cualquier decisor.

Más sobre las proyecciones de población del INE

Bastante he hablado de las proyecciones de población del INE (p.e., aquí o aquí). Insisto porque el gráfico que aparece en la segunda página de la nota de prensa de las últimas, a saber, se parece muchísimo a un gráfico que garabateé en el Bar Chicago de Zúrich (el peor garito de la peor calle de una de las mejores ciudades del mundo), con demasiadas cervezas en el cuerpo y mientras nos reíamos hasta de las bombillas.

Consecuencias indeseadas de la falta de humildad

Me refiero a estas: Es que es muy ridículo tu afan por aplicar tus promedios frívolamente a los fenómenos más variados para ofrecer predicciones que casi nunca se cumplen. No tiene que ver con el modelo estadístico, sino con el pésimo periodismo paracientífico que haces https://t.co/kD6bxknMFp – Guillermo López (@GuillermoLPD) 9 de julio de 2018 La historia, resumida, es que Kiko Llaneras publica sus predicciones para el mundial en El País, i.

Si se estudió que las autopistas eran viables, ¿por qué están ahora en quiebra?

Así titula El Mundo un artículo en el que el mismo periódico se responde: Porque los estudios de viabilidad sirvieron más para justificar la construcción que para cubrir una necesidad real. La R-3 y la R-5 absorberían 70.000 vehículos diarios según las estimaciones y el tráfico real es al menos cuatro veces inferior. En sentido contrario Gobierno, concesionarias y bancos subestimaron el coste del suelo. Los expropiados llevaron su caso a los tribunales y llegaron a multiplicar hasta en 10 veces lo que recibieron años atrás.