Carlos J. Gil Bellosta

Mejores predictores: un ejemplo (el de Brier)

La entrada de hoy casi me la escribe un comentarista (al que le estoy muy agradecido) ayer. Retomo el tema. Ayer premiaba a cada predictor con $p(X)$, es decir, le daba $p$ punticos si ocurría $X$ y $1-p$ punticos sin no ocurría. La cosa no cambia si nos alineamos con lo que está escrito por ahí y en lugar de premiar, penalizamos. Es decir, si en lugar de maximizar $p(X)$, buscamos minimizar $1 - p(X)$. Nada cambia. ...

Una de las mil maneras malas de elegir al mejor predictor

El contexto, ayer. La cosa es que se nos podría ocurrir premiar a los predictores cuando asignan probabilidad alta a los sucesos que ocurrieron y baja a los que no. Por ejemplo, si el evento $i$ ocurre, premiar al predictor con $p_i$ y si no ocurre, con $1 - p_i$. Escrito de otra manera, con $p_i(X_i)$ (que quiere decir la probabilidad correspondiente al evento observado). Como hay varios eventos, cada predictor se llevaría un premio igual a $s = \sum_i p_i(X_i)$ y sería mejor aquel predictor con el mayor valor de $s$. Estupendo. ...

¿Quién será el mejor predictor? ¿Cómo se podrá medir?

He tropezado con un problema nuevo y sobre el que escribiré más estos días. Hoy y aquí solo lo formulo. Existe una serie de eventos dicotómicos $X_i$ que pueden ocurrir o no ocurrir, cada uno de ellos con su probabilidad real (pero desconocida) de ocurrencia $q_i$. Antes de que ocurran o no, a dos expertos se les preguntan las probabilidades de ocurrencia de dichos eventos y producen predicciones $p_{1i}$ y $p_{2i}$. ...

Clasificación vs predicción

Traduzco de aquí: Es crucial distinguir predicción y clasificación. En el contexto de la toma de decisiones, la clasificación es una decisión prematura: la clasificación combina predicción y decisión y usurpa al decisor la consideración del coste del error. La regla de clasificación tiene que reformularse si cambian las recompensas o la base muestral. Sin embargo, las predicciones están separadas de las decisiones y pueden ser aprovechadas por cualquier decisor. La clasificación es más útil con variables objetivo no estocásticas o determinísticas que ocurren frecuentemente y cuando no ocurre que dos sujetos con los mismos atributos pueden tener comportamientos distintos. En estos casos, la clave es modelar las tendencias (es decir, las probabilidades). ...

Sic "scientia" facta est

Hoy escribo brevemente para comentar una herramienta con la que ayudar a pretendidos investigadores a hacer ciencia. Las instrucciones están aquí y la herramienta con la que entrenarse, aquí. ¡Feliz contribución a ese futuro que sin ciencia dizque no será!

Cadenas de Markov para generar trayectorias posibles de huracanes

Supongo que todo el mundo estará enterado de lo que hizo Shannon en 1948: generar texto automático usando cadenas de Markov (el que no, que mire esto). El que no, que eche un vistazo a esto otro para ver cómo una extensión de la idea original permite simular posibles trayectorias de huracanes.

Modelos de conteos con sobredispersión (con Stan)

Esta entrada muestra cómo afrontar (con Stan) un problema que encontré el otro día en un lugar que no puedo mencionar pero en el que sé que me leen (y los destinatarios sabrán que va por ellos). El contexto es el siguiente: se hace un test A/B donde la variable de interés son unos conteos. Hay varios grupos (aquí los reduciré a dos) y los datos siguen aproximadamente (aquí omitiré la parte de la inflación de ceros) una distribución de Poisson. Pero solo aproximadamente: existe sobredispersión, es decir, la varianza de los datos excede su media. ...

d’Hondt vs lm

Se cuestiona Malaprensa (aquí) si con un 12.9% de los votos podría Vox obtener 45 escaños. Precisamente porque es lo que le correspondería con una regla de tres. Pero todo el mundo sabe que entre lo uno y lo otro media la regla de d’Hondt, causa de resabidas distorsiones. Y, tras realizar las debidas simulaciones, concluye que sí, que es perfectamente posible. Pero eso es algo que ya sabíamos los que habíamos leído esto, que viene a decir que sí, que por contraintuitivo que parezca, lm atribuye escaños no mal. Para vagos, selecciono: ...

Sobre la brecha salarial... de belleza

¿Por qué existe un debate público sobre la brecha salarial de género y no sobre la brecha salarial por cualquier otra presunta causa? La hay, p.e., por nivel de estudios. Pero, claro, uno siempre puede argumentar en términos meritocráticos. ¿Por sector económico? Ahí está menos claro y discutirlo nos llevaría muy lejos. Pero, ¿por qué no ir más allá de las variables registradas por el INE y fijarnos, p.e., en la belleza (física)? Porque parece que brecha, hayla. Diráse que es una medida subjetiva y no refrendada por el registro civil. No como el sexo. Pero si mal no recuerdo, la última vez que alguien fletó un bus naranja para explicarnos que los niños tienen pene y las niñas, vulva, la cosa acabó como el rosario de la aurora. ...

Un acto fallido: la pregunta sigue, pues, abierta

Jot Down es una publicación recomendable. Aunque frecuentemente peque de a lo que tienden las publicaciones de letras (en el sentido menos amable del término): que prime el escribir bonito sobre la sustancia, el argumento y su coherencia. El artículo que motiva este se anuncia como Especulación inmobiliaria, tradición centenaria y recoge tres episodios (¿anécdota? ¿categoría?) bien conocidos pero florida y amenamente descritos: El del duque de Lerma a principios del XVII. El del marqués de Salamanca, en el XIX. El que se deriva de la ley del suelo de 1998. Se habla abundantemente de los aspectos negativos de los tres (recuérdese: de letras). Al tratar el último, el más interesante en términos efectivos, se arrima pero no llega a plantear (y, por supuesto, tratar de dar respuesta a) la pregunta más obvia. Es algo así como si en una película de intriga, en los últimos minutos, tras la escalada de la tensión, en lugar de resolver el misterio e identificar y detener al asesino, cambiase súbitamente el género y una horda de zombis se comiese el cerebro de todos los implicados. ...