Carlos J. Gil Bellosta

¿Quién será el mejor predictor? ¿Cómo se podrá medir?

He tropezado con un problema nuevo y sobre el que escribiré más estos días. Hoy y aquí solo lo formulo. Existe una serie de eventos dicotómicos $X_i$ que pueden ocurrir o no ocurrir, cada uno de ellos con su probabilidad real (pero desconocida) de ocurrencia $q_i$. Antes de que ocurran o no, a dos expertos se les preguntan las probabilidades de ocurrencia de dichos eventos y producen predicciones $p_{1i}$ y $p_{2i}$. ...

Clasificación vs predicción

Traduzco de aquí: Es crucial distinguir predicción y clasificación. En el contexto de la toma de decisiones, la clasificación es una decisión prematura: la clasificación combina predicción y decisión y usurpa al decisor la consideración del coste del error. La regla de clasificación tiene que reformularse si cambian las recompensas o la base muestral. Sin embargo, las predicciones están separadas de las decisiones y pueden ser aprovechadas por cualquier decisor. La clasificación es más útil con variables objetivo no estocásticas o determinísticas que ocurren frecuentemente y cuando no ocurre que dos sujetos con los mismos atributos pueden tener comportamientos distintos. En estos casos, la clave es modelar las tendencias (es decir, las probabilidades). ...

Sic "scientia" facta est

Hoy escribo brevemente para comentar una herramienta con la que ayudar a pretendidos investigadores a hacer ciencia. Las instrucciones están aquí y la herramienta con la que entrenarse, aquí. ¡Feliz contribución a ese futuro que sin ciencia dizque no será!

Cadenas de Markov para generar trayectorias posibles de huracanes

Supongo que todo el mundo estará enterado de lo que hizo Shannon en 1948: generar texto automático usando cadenas de Markov. Los que no, deberían consultar esto. Ahora, Generating Hurricanes with a Markov Spatial Process describe una extensión de la idea original permite simular posibles trayectorias de huracanes.

Modelos de conteos con sobredispersión (con Stan)

Esta entrada muestra cómo afrontar (con Stan) un problema que encontré el otro día en un lugar que no puedo mencionar pero en el que sé que me leen (y los destinatarios sabrán que va por ellos). El contexto es el siguiente: se hace un test A/B donde la variable de interés son unos conteos. Hay varios grupos (aquí los reduciré a dos) y los datos siguen aproximadamente (aquí omitiré la parte de la inflación de ceros) una distribución de Poisson. Pero solo aproximadamente: existe sobredispersión, es decir, la varianza de los datos excede su media. ...

d’Hondt vs lm

Se cuestiona Malaprensa (aquí) si con un 12.9% de los votos podría Vox obtener 45 escaños. Precisamente porque es lo que le correspondería con una regla de tres. Pero todo el mundo sabe que entre lo uno y lo otro media la regla de d’Hondt, causa de resabidas distorsiones. Y, tras realizar las debidas simulaciones, concluye que sí, que es perfectamente posible. Pero eso es algo que ya sabíamos los que habíamos leído esto, que viene a decir que sí, que por contraintuitivo que parezca, lm atribuye escaños no mal. Para vagos, selecciono: ...

Sobre la brecha salarial... de belleza

¿Por qué existe un debate público sobre la brecha salarial de género y no sobre la brecha salarial por cualquier otra presunta causa? La hay, p.e., por nivel de estudios. Pero, claro, uno siempre puede argumentar en términos meritocráticos. ¿Por sector económico? Ahí está menos claro y discutirlo nos llevaría muy lejos. Pero, ¿por qué no ir más allá de las variables registradas por el INE y fijarnos, p.e., en la belleza (física)? Porque parece que brecha, hayla. Diráse que es una medida subjetiva y no refrendada por el registro civil. No como el sexo. Pero si mal no recuerdo, la última vez que alguien fletó un bus naranja para explicarnos que los niños tienen pene y las niñas, vulva, la cosa acabó como el rosario de la aurora. ...

Un acto fallido: la pregunta sigue, pues, abierta

Jot Down es una publicación recomendable. Aunque frecuentemente peque de a lo que tienden las publicaciones de letras (en el sentido menos amable del término): que prime el escribir bonito sobre la sustancia, el argumento y su coherencia. El artículo que motiva este se anuncia como Especulación inmobiliaria, tradición centenaria y recoge tres episodios (¿anécdota? ¿categoría?) bien conocidos pero florida y amenamente descritos: El del duque de Lerma a principios del XVII. El del marqués de Salamanca, en el XIX. El que se deriva de la ley del suelo de 1998. Se habla abundantemente de los aspectos negativos de los tres (recuérdese: de letras). Al tratar el último, el más interesante en términos efectivos, se arrima pero no llega a plantear (y, por supuesto, tratar de dar respuesta a) la pregunta más obvia. Es algo así como si en una película de intriga, en los últimos minutos, tras la escalada de la tensión, en lugar de resolver el misterio e identificar y detener al asesino, cambiase súbitamente el género y una horda de zombis se comiese el cerebro de todos los implicados. ...

p-valores y el perro que no ladró

Tengo un montón de artículos por ahí guardados que fueron escritos a raíz de la publicación de The ASA’s Statement on p-Values: Context, Process, and Purpose, ya en 2016, que ponía en cuestión el uso indiscriminado y acrítico de los p-valores. Algunos de ellos son este, este, este o este. Asunto que se refiere a y abunda en todo lo que se ha escrito sobre la llamada crisis de replicabilidad, sobre la que también se ha escrito largamente. ...

Todos los seres vivos necesitan agua y las rosas necesitan agua, luego las rosas son seres vivos

El razonamiento que titula la entrada es falso. Pero tendemos a darlo por bueno si no pensamos demasiado (o despacio, en terminología de Kahneman) porque la conclusión es cierta. A menudo, tenemos tantas ganas de llegar a una conclusión que nos parece tan justa y necesaria, que damos por buena cualquier manera de alcanzarla. Coda: Sin método somos esclavos de nuestras prioris.