Un ejemplo de regresión con pérdidas asimétricas

En los libros de texto, imperan las funciones de pérdida simétricas, como el RMSE o el MAE. Pero hay casos —muchos, de hecho, en la práctica— en que las pérdidas son asimétricas: es más oneroso pasarse, p.e., que no llegar. En esta entrada voy a analizar un ejemplo motivado por el siguiente tuit:

El resumen de lo que sigue es el siguiente:

  • Voy a bajar datos de producción y consumo eléctrico de REE.
  • Voy a dejar en 0 el carbón, el gas y la nuclear.
  • Voy a ver por cuánto hay que multiplicar eólica y solar (dejando tal cual el resto de las renovables y cogeneraciones) para alcanzar un óptimo.

Obviamente, en el óptimo:

Un problema no tan simple de probabilidades resuelto usando frecuencias naturales

El otro día se propuso un problema de probabilidad sencillo en su planteamiento aunque de solución no trivial (véase el planteamiento y una solución) que tenía como intención original poner a prueba las intuiciones de las probabilidades de eventos.

El problema se enuncia así:

Una pequeñísima proporción de recién nacidos tienen cierto rasgo (genético). Se realizan dos pruebas, A y B, para detectarlo. Sin embargo, las pruebas no son muy precisas:

  • El 70% de los recién nacidos con test A positivo tienen el rasgo (y el 30% no).
  • El 20% de los recién nacidos con test B positivo tienen el rasgo (y el 80% no). También se sabe que las pruebas son independientes en el siguiente sentido:
  • Si un recién nacido tiene el rasgo, el resultado de la prueba A es independiente del de la prueba B.
  • Si un recién nacido no tiene el rasgo, el resultado de la prueba A es independiente del de la prueba B. Ahora, un recién nacido es positivo en ambas pruebas. ¿Puedes estimar la probabilidad de que tenga el rasgo?

Una solución algebraica (con el teorema de Bayes de por medio) puede consultarse en uno de los enlaces proporcionados más arriba. Como anunciaba, sin ser extraordinariamente compleja, no es trivial. También será útil pensar, más que en términos de probabilidades, de odds.

TF-IDF

Imaginemos que queremos categorizar textos (i.e., poder decir algo así como: el texto 1434 trata de biología). Una manera de afrontar el problema, no la única, es contar palabras (o más en general, términos: piénsese en bigramas, trigramas, etc.).

Qué es

Por fijar ideas, pensemos en textos sobre economía (sí, porque voy a referirme a parte del análisis de los textos del blog nadaesgratis.es al que ya me referí aquí).

En total, en casi 33 MB de texto hay muchos términos (estrictamente, unigramas): en total, 81618 lemas (de acuerdo con la definición de Spacy de lema). Tiene sentido filtrar los términos para seleccionar solo aquellos más relevantes para clasificar los textos. Así, por ejemplo:

npl(nadaesgratis.es): el subproducto

Estos días me he entretenido repasando el estado del arte en NLP y otras tecnologías que hace un tiempo no toco y que, la verdad sea dicha, cambian —muy a mejor— una barbaridad. A tal fin, descargué al disco duro el texto de todas las entradas de un blog que leía en tiempos, nadaesgratis.es —unas 4388 entradas, menos unas 30 que ya no existen, a lo largo de 13 años y que vienen a ocupar, en texto no comprimido, como treinta quijotes, unos 33 MB— para mis pruebas.

El hueco térmico: una caracterización vía kmeans

El hueco térmico es una variable aleatoria que representa la necesidad de utilizar energía térmica tradicional y no renovable para abastecer el mercado eléctrico. Tiene dos fuentes principales de variabilidad:

  • La variabilidad de la demanda.
  • La variabilidad de las fuentes de energía renovable.

[Una pequeña digresión: cuando $Y = X_1 + X_2$, la varianza de $Y$ depende de las de $X_i$ y de su correlación. Si son independientes, es la suma de las dos; si están negativamente correladas, la de $Y$ es inferior a la suma; etc. Este humilde opinador sostiene que a medio plazo no hay otro remedio para el sistema eléctrico que forzar una correlación negativa entre $X_1$ y $X_2$, lo cual, en plata, significa cortes más o menos selectivos de suministro.]

Una crítica a una crítica de MoMo

[Hoy puede que acabe escribiendo algo que lo que pasado un tiempo tal vez no me sienta muy orgulloso. Sospecho que puedo llegar a ser injusto. Pero dejaría de ser yo si me abstuviese de publicar lo que sigue.]

Hoy me he desayunado con el artículo ¿Cómo se miden las muertes causadas por el calor? El MoMo estima el exceso de muertes atribuibles al exceso de temperaturas, no es un registro aparecido en Maldita.es. Habla de MoMo, de lo que un poquito sé, aunque solo sea por haber trabajado en él durante dos o tres años.

"Scorings" para evaluar predicciones expresadas en términos de CIs

Ya he escrito bastante sobre scorings y métodos de evaluación de predicciones, particularmente las expresadas en términos probabilísticos. Los casos más habituales de estas últimas son el binario (en el que la predicción es una probabilidad en $[0,1]$) y el continuo en el que la predicción es una distribución de probabilidad.

Pero sucede en ocasiones que el predictor viene expresado por un intervalo de confianza (o varios, con niveles de significancia distintos).

Medidas de similitud entre distribuciones

Por motivos que quedarán claros en entradas futuras, he estado investigando sobre medidas de proximidad entre distribuciones de probabilidad. En mi caso concreto, además, multidimensionales (y de dimensión alta, en $R^N$, con $N$ del orden de docenas o centenas).

Supongamos que tenemos dos variables aleatorias $X, Y \in R^N$ y queremos ver estudiar en qué medida son próximas sus distribuciones. Idealmente, además, utilizando un método que pueda utilizarse a través de muestras de dichas variables.

El estilo es la coocurrencia de patrones

[Aquí, entre otras cosas, se abunda una serie de tres que realicé hace seis años sobre el asunto y que puede consultarse aquí.]

Esta entrada trata sobre cómo se puede caracterizar en términos matemáticos, medir y, en última instancia, operar sobre un concepto tal lábil como lo es el del estilo (o textura) de una imagen. Por ejemplo, lo que caracteriza a una pintura negra de Goya, un primer plano de un plato de macarrones o una viñeta de un cómic de Mortadelo.

L-momentos: en busca de la intuición

Existen esquinitas de la estadística con las que uno solo tropieza cuando su práctica lo expone a sus aplicaciones menos habituales. Estos días ha sido el asunto de los l-momentos. En esta entrada exploro la intuición acerca del concepto —porque uno no la hallará ni aquí ni en ninguno de los artículos que he consultado al respecto— y, más en general, el interés que pueda tener fuera del ámbito en el que los he encontrado.