Estadística

[Esta entrada tiene que ver con una nueva manía que he adquirido con la edad: construir modelos generativos para esos modelos explicados siempre de una manera sumamente críptica.]

La cointegración es una relación muy particular entre dos (o más) series temporales. Una de ellas, $x_t$ puede ser cualquiera. Tanto da. Vamos a construir la cointegrada, $y_t$. Para ello, primero, necesitamos una serie más, una serie estacionaria, p.e., $\nu_t$. Puede ser un ruido blanco, pero también una serie ARMA cualquiera (aunque siempre estacionaria). Por ser estacionaria, la serie $\nu_t$ no se aleja nunca demasiado de su valor medio, que podemos suponer cero.

La entrada de hoy casi me la escribe un comentarista (al que le estoy muy agradecido) ayer. Retomo el tema.

Ayer premiaba a cada predictor con $p(X)$, es decir, le daba $p$ punticos si ocurría $X$ y $1-p$ punticos sin no ocurría. La cosa no cambia si nos alineamos con lo que está escrito por ahí y en lugar de premiar, penalizamos. Es decir, si en lugar de maximizar $p(X)$, buscamos minimizar $1 - p(X)$. Nada cambia.

El contexto, ayer.

La cosa es que se nos podría ocurrir premiar a los predictores cuando asignan probabilidad alta a los sucesos que ocurrieron y baja a los que no. Por ejemplo, si el evento $i$ ocurre, premiar al predictor con $p_i$ y si no ocurre, con $1 - p_i$. Escrito de otra manera, con $p_i(X_i)$ (que quiere decir la probabilidad correspondiente al evento observado).

Como hay varios eventos, cada predictor se llevaría un premio igual a $s = \sum_i p_i(X_i)$ y sería mejor aquel predictor con el mayor valor de $s$. Estupendo.

He tropezado con un problema nuevo y sobre el que escribiré más estos días. Hoy y aquí solo lo formulo.

Existe una serie de eventos dicotómicos $X_i$ que pueden ocurrir o no ocurrir, cada uno de ellos con su probabilidad real (pero desconocida) de ocurrencia $q_i$. Antes de que ocurran o no, a dos expertos se les preguntan las probabilidades de ocurrencia de dichos eventos y producen predicciones $p_{1i}$ y $p_{2i}$.

Traduzco de aquí:

Es crucial distinguir predicción y clasificación. En el contexto de la toma de decisiones, la clasificación es una decisión prematura: la clasificación combina predicción y decisión y usurpa al decisor la consideración del coste del error. La regla de clasificación tiene que reformularse si cambian las recompensas o la base muestral. Sin embargo, las predicciones están separadas de las decisiones y pueden ser aprovechadas por cualquier decisor.

La clasificación es más útil con variables objetivo no estocásticas o determinísticas que ocurren frecuentemente y cuando no ocurre que dos sujetos con los mismos atributos pueden tener comportamientos distintos. En estos casos, la clave es modelar las tendencias (es decir, las probabilidades).

Hoy escribo brevemente para comentar una herramienta con la que ayudar a pretendidos investigadores a hacer ciencia. Las instrucciones están aquí y la herramienta con la que entrenarse, aquí.

¡Feliz contribución a ese futuro que sin ciencia dizque no será!

Supongo que todo el mundo estará enterado de lo que hizo Shannon en 1948: generar texto automático usando cadenas de Markov (el que no, que mire esto).

El que no, que eche un vistazo a esto otro para ver cómo una extensión de la idea original permite simular posibles trayectorias de huracanes.

Tengo un montón de artículos por ahí guardados que fueron escritos a raíz de la publicación de The ASA’s Statement on p-Values: Context, Process, and Purpose, ya en 2016, que ponía en cuestión el uso indiscriminado y acrítico de los p-valores. Algunos de ellos son este, este, este o este.

Asunto que se refiere a y abunda en todo lo que se ha escrito sobre la llamada crisis de replicabilidad, sobre la que también se ha escrito largamente.

Hace unos años se oyó un runrún en pro de sustituir el PIB por un índice alternativo con el que comparar el desempeño de los países (más, p.e., aquí).

En el Índice Global de Felicidad, una de las alternativas propuestas que coordina la ONU, Costa Rica tiende a ocupar niveles altos (el 13 este año, acompañando a países tales como Austria, Irlanda o Alemania), mientras que España se encuentra en el puesto 36, por debajo de Malasia y un pelín de gato por encima de Colombia (sí, Colombia).

Por ejemplo, el de la igualdad. Aquí un artículo en el que se dice que no y otro del mismo autor en el que se dice que sí (parece que todo se reduce a cuestiones metodológicas).

Este tipo de cuestiones suelen zanjarse creando una metodología y encargando al INE su seguimiento. El INE, entonces, define desigualdad (para el caso) como aquello que mide nuestra metodología de medición de la desigualdad (fenómeno que llaman reificación y que consiste en sustituir la sustancia por el método). Lo mismo pasa con el desempleo, el PIB y tantas otras magnitudes.

Estadística

Cointegración: un modelo generativo

Mejores predictores: un ejemplo (el de Brier)

Una de las mil maneras malas de elegir al mejor predictor

¿Quién será el mejor predictor? ¿Cómo se podrá medir?

Clasificación vs predicción

Sic "scientia" facta est

Cadenas de Markov para generar trayectorias posibles de huracanes

p-valores y el perro que no ladró

Fui a Costa Rica y volví convencido de que el Índice Global de Felicidad es una basura

¿Tiene sentido plantearse un objetivo que no se puede medir?