Estadística

El equivalente cierto (y apuntes para su aplicación en el monotema ¡tan cansino! de este tiempo)

A veces toca comparar dos variables aleatorias: ¿cuál de dos juegos preferirías? Hay muchas maneras de resolver ese problema, de una larga historia, con mejor o peor fortuna. En el fondo, hay que crear un orden en el conjunto de las variables aleatorias y, en el fondo —y perdónenme mis excolegas matemáticos—, proyectarlas de alguna manera sobre los números reales. Si este número real se elige de alguna manera razonable (p.

Nuevo vídeo en YouTube: "¿Por qué nos volvemos bayesianos con la edad?"

El vídeo que anuncio hoy, lleva ya un tiempo colgado. Pero se me ha interpuesto la serie sobre la explicación y justificación del bayesianismo y frecuentismo y he retrasado su noticia. De todos modos, es oportuno porque en el vídeo hago referencia a cosas que, cuando se rodó, aún no estaban ni escritas ni publicadas pero que el lector interesado encontrará en esa serie. Confieso que el título contiene ciertas dosis de clickbait.

Nuevo vídeo en YouTube: "Una charla de 2013 sobre la EPA"

Rescato hoy el vídeo de una conferencia mía de 2013 sobre la EPA, que estaba alojado en un portal del que probablemente acabe desapareciendo. Lo he repasado por encima y creo que sigue conteniendo cosas valiosas. Otras puede que hayan acabado desactualizadas. Espero no obstante que lo bueno aproveche y lo malo no confunda.

TF-IDF

Imaginemos que queremos categorizar textos (i.e., poder decir algo así como: el texto 1434 trata de biología). Una manera de afrontar el problema, no la única, es contar palabras (o más en general, términos: piénsese en bigramas, trigramas, etc.). Qué es Por fijar ideas, pensemos en textos sobre economía (sí, porque voy a referirme a parte del análisis de los textos del blog nadaesgratis.es al que ya me referí aquí).

El hueco térmico: una caracterización vía kmeans

El hueco térmico es una variable aleatoria que representa la necesidad de utilizar energía térmica tradicional y no renovable para abastecer el mercado eléctrico. Tiene dos fuentes principales de variabilidad: La variabilidad de la demanda. La variabilidad de las fuentes de energía renovable. [Una pequeña digresión: cuando $Y = X_1 + X_2$, la varianza de $Y$ depende de las de $X_i$ y de su correlación. Si son independientes, es la suma de las dos; si están negativamente correladas, la de $Y$ es inferior a la suma; etc.

Sumas de variables de Bernuilli heterogénas

I. El otro día planteé en Twitter la siguiente encuesta: Como bien puede apreciarse, 16 personas tuvieron a bien contestar y nada menos que siete, casi la mitad, dieron con la respuesta acertada. Me gustaría saber qué cuentas de Twitter pueden presumir de una audiencia tan cualificada. ¿Por qué es esa respuesta correcta? Sean $p_i$ las probabilidades de éxito de $n$ bernoullis y $p$ el valor medio de las $p_i$. Entonces, la varianza de $Y$ es $np(1-p) = np - np^2$ y la de $X$ es

"Frente a la aspiración de una representación precisa, debemos considerar las limitaciones conceptuales, matemáticas y computacionales"

La cita que da título a la entrada procede —con mi ¿mala? traducción— del artículo Philosophy and the practice of Bayesian statistics que, en realidad, trata de otra cosa. Pero que resume muy bien algo que mucha gente tiende a ignorar: mucho del corpus de lo que actualmente llamamos positivamente estadística está condicionado por las circunstancias conceptuales, matemáticas y, muy especialmente, computacionales del momento en el que fueron concebidos. Un ejemplo: hace cien años, aún se discutía cómo calcular la $\sigma$ de una muestra.

Matrices de confusión, sensibilidad, especificidad, curva ROC, AUC y todas esas cosas

Esta entrada es una breve introducción a los conceptos indicados en el título. Está motivada por una pregunta que se formuló en Twitter acerca de la existencia o no de lo que voy a escribir en español y a que ninguna de las respuestas aportadas me satisfizo. Todos esos conceptos hacen referencia al estudio de la bondad de un modelo de clasificación (es decir, un modelo que trata de predecir una etiqueta (o una variable categórica, si se quiere) a partir de ciertos datos).

Vale, el modelo es y = f(x) + error y f es importante, pero lo que le da significado es y

Esta es una entrada sobre la semántica de los modelos que resume mi planteamiento en una discusión que tuve hace un tiempo en Twitter. La he buscado sin éxito, así que la resumo. Alguien —no recuerdo bien— quería explicar cómo hace AEMET las predicciones meteorológicas probabilísticas. Pero con un error de planteamiento. Venía a decir que una predicción meteorológica probabilística (p.e., la probabilidad de que mañana llueva en Madrid) no significa algo así como que de tantos días parecidos a los de hoy, al día siguiente llovió en tal proporción sino otra cosa distinta.

Si yo fuera rey, ¿cómo serían las encuestas electorales?

El otro día —más bien, aquel día en el que tomé las notas que uso en esta entrada— hubo elecciones regionales en Castilla y León. Durante las semanas anteriores se publicaron los resultados de una serie de encuestas electorales al uso, similares a estos: Es decir, información típicamente cuantitativa. Cerraron los colegios electorales, se contaron los votos y al día siguiente la prensa comenzó a discutir una serie de temas cualitativos muy concretos: si cierto partido había incrementado/reducido su número de votos, si tal otro había desaparecido o no, si el ganador habría de necesitar algún tipo de acuerdo, etc.

Nuevo vídeo en YouTube: "Causalidad: una charla con Carlos M. Madrid Casado"

Esta semana he tenido el placer y el honor de tener como invitado en mi canal a Carlos M. Madrid Casado para discutir el manido y usualmente maltratado tema de la causalidad. Lo hemos hecho desde varias perspectivas: la estadística, por supuesto; la de otras disciplinas con las que la estadística interactúa habitualmente, como la medicina, la física o la economía; y, finalmente, desde la filosófica, por ver qué se puede aportar desde esas coordenadas al asunto.

Nuevo vídeo en YouTube: "Modelos estadísticos vs comportamiento estratégico"

En el vídeo se hace referencia a una serie de materiales. Sus coordenadas son: El hilo de Twitter donde se da cuenta de la situación actual de Zillow. El libro The People’s Republic of Walmart El artículo de Jesús Fernández Villaverde Simple Rules for a Complex World with Artificial Intelligence El libro de Paul Meehl Clinical vs statistical prediction El artículo de Akerlof The_Market_for_Lemons Yo sobre el efecto “pierna rota”

Universo y muestra: un ejemplo muy didáctico en el que La Caixa lo hace todo mal

Los manuales de estadística al uso introducen los conceptos de universo y muestra y tienden a ilustrarlos con ejemplos buenos. Pero los ejemplos buenos son útiles solo hasta cierto punto: ilustran, como digo, pero ni caracterizan ni delimitan. Los ejemplos malos, sin embargo, son muy útiles porque ayudan a trazar una frontera entre lo que es y lo que no es permisible. Pero, ¿de dónde sacar buenos ejemplos malos? Aunque no es fácil, nuestros colegas de La Caixa Research han tenido la gentileza de ponernos uno a huevo: es Los precios de la luz están por las nubes, ¿y el importe de su recibo?