estadística

Sobre la llamada ley del estadístico inconsciente

Es innegable que el rótulo ley del estadístico inconsciente llama la atención. Trata sobre lo siguiente: si la variable aleatoria es $X$ y la medida es $P_X$, entonces, su esperanza se define como $$E[X] = \int x dP_X(x).$$ Supongamos ahora que $Y = f(X)$ es otra variable aleatoria. Entonces $$E[Y] = \int y dP_Y(y)$$ para cierta medida (de probabilidad) $P_Y$. Pero es natural, fuerza de la costumbre, dar por hecho que

Operacionalización de la "igualdad de opotunidades"

Tiene Google (o una parte de él) un vídeo en Youtube, sobre el que me resulta imposible no comentar nada. Trata, esencialmente, de cómo operacionalizar a la hora de poner en marcha modelos esos principios de justicia, igualdad de oportunidades, etc. de los que tanto se habla últimamente. La definición de igualdad de oportunidades que se postula en el vídeo, tal vez demasiado esquemática por su orientación didáctica, es la siguiente:

Sobre la "African dummy"

2022 es un mal año para recordar un asunto sobre el que tenía anotado hablar desde los inicios del blog, allá por 2010: la llamada African dummy. Mentiría, sin embargo, si dijese que no es oportuno: está relacionado con temas que hoy se consideran importantes, aunque tratado al estilo de los noventa. Es decir, de una manera inaceptablemente —para el paladar de hogaño— distinta. La cosa es más o menos así: en el 91, a R.

¿Qué hora debería ser?

En esta entrada propongo y no resuelvo un problema que puede considerarse o estadístico o, más ampliamente, de ajuste de funciones —sujeto a innumerables ruidos—: determinar qué hora debería ser. Eso de la hora —y me refiero a los horarios de invierno, verano, etc. y más en general, la desviación de la hora nominal con respecto a la solar— se parece un poco a la economía. En economía tienes cantidades nominales y reales.

UMAP, tSNE y todas esas cosas

Estaba repasando cosas sobre reducción de la dimensionalidad y, en concreto, UMAP y tSNE. Me ha parecido conveniente replantear las cosas sobre primeros principios para que todo se entienda mejor. El problema es el siguiente: Tenemos $K$ puntos $x_i$ en un espacio de dimensión $N$. Buscamos su correspondencia con otros $K$ puntos $y_i$ en un espacio de dimensión $n « N$. De manera que las configuraciones de los $x_i$ y los $y_i$ sean similares en el sentido de que la matriz de distancias $(d(x_i,x_j))$ sea parecida a la $(d(y_i, y_j))$.

El equivalente cierto (y apuntes para su aplicación en el monotema ¡tan cansino! de este tiempo)

A veces toca comparar dos variables aleatorias: ¿cuál de dos juegos preferirías? Hay muchas maneras de resolver ese problema, de una larga historia, con mejor o peor fortuna. En el fondo, hay que crear un orden en el conjunto de las variables aleatorias y, en el fondo —y perdónenme mis excolegas matemáticos—, proyectarlas de alguna manera sobre los números reales. Si este número real se elige de alguna manera razonable (p.

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, y IV

[Esta es la cuarta y última (por el momento) de una serie de entradas sobre el tema que se anuncia en el título.] En la tercera entrega de la serie se introdujo el frecuentismo como una particular manera de resolver el problema de minimización asociado a la expresión $$L(\hat{\theta}) = \int_\theta \int_X L(\theta, \hat{\theta}) p(X | \theta) p(\theta) dX d\theta.$$ En esta entrada se introducirá el bayesianismo de manera análoga con el concurso del teorema de Fubini (que, recuérdese, permite conmutar las integrales):

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, III

[Esta es la tercera de una serie de cuatro o cinco entradas sobre el tema que se anuncia en el título.] Terminó la segunda entrada de anunciando cómo la manera de operar con la expresión $$L(\hat{\theta}) = \int_\theta \int_X L(\theta, \hat{\theta}) p(X | \theta) p(\theta) dX d\theta$$ determina las dos grandes corrientes dentro de la estadística. Para entender la primera, el frecuentismo, se debe reescribir la expresión anterior como $$L(\hat{\theta}) = \int_\theta \left[\int_X L(\theta, \hat{\theta}) p(X | \theta) dX \right] p(\theta)d\theta$$

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, II

[Esta es la segunda de una serie de tres o cuatro entradas sobre el tema que se anuncia en el título.] Terminó la primera entrada de la serie reconociendo que aún no se había entrado en materia estadística, que para ello habría que hablar de datos. Y, en efecto, la estadística principia cuando, por decirlo de manera sugerente aunque breve e imprecisa, $\theta$ genera unos datos $X$ que proporcionan pistas sobre su naturaleza.

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, I

[Esta es la primera de una serie de tres o cuatro entradas sobre el tema que se anuncia en el título.] $\theta$ es un valor desconocido. Por algún motivo, necesitamos encontrar un valor $\hat{\theta}$ —que podríamos llamar de cualquier manera, pero que, por lo que sigue, será podemos convenir en denominar estimación de $\theta$— tal que minimicemos una determinada función de error $$L(\theta, \hat{\theta}).$$ Por fijar ideas, un ejemplo: alguien nos puede haber dicho que ha pensado un número (entero) entre el 1 y el 10, $\theta$ y que nos dará un premio si lo acertamos, es decir, si proporcionamos un $\hat{\theta}$ y resulta que $\theta = \hat{\theta}$.

Errores en cierto tipo de encuestas

En las encuestas a las que estamos acostumbrados se le pregunta a la gente cosas del tipo: ¿tiene Vd. perro? Luego, las respuestas se tabulan, etc. y se publican los resultados. Pero en otras —por ejemplo, en la Encuesta de percepción de la ciencia y la tecnología en España— se preguntan cosas como: ¿vivieron los primeros humanos al mismo tiempo que los dinosaurios? Y allí no se trata de averiguar qué es lo que responde la gente sino, más bien, cuánta gente sabe la respuesta.

Un ejemplo de regresión con pérdidas asimétricas

En los libros de texto, imperan las funciones de pérdida simétricas, como el RMSE o el MAE. Pero hay casos —muchos, de hecho, en la práctica— en que las pérdidas son asimétricas: es más oneroso pasarse, p.e., que no llegar. En esta entrada voy a analizar un ejemplo motivado por el siguiente tuit: El resumen de lo que sigue es el siguiente: Voy a bajar datos de producción y consumo eléctrico de REE.

El hueco térmico: una caracterización vía kmeans

El hueco térmico es una variable aleatoria que representa la necesidad de utilizar energía térmica tradicional y no renovable para abastecer el mercado eléctrico. Tiene dos fuentes principales de variabilidad: La variabilidad de la demanda. La variabilidad de las fuentes de energía renovable. [Una pequeña digresión: cuando $Y = X_1 + X_2$, la varianza de $Y$ depende de las de $X_i$ y de su correlación. Si son independientes, es la suma de las dos; si están negativamente correladas, la de $Y$ es inferior a la suma; etc.