Probabilidad

El origen de uso moderno del término "variable aleatoria" podría estar en un artículo publicado en italiano en una revista oscura en 1913

Sería muy difícil haber aprendido algo de probabilidad sin haber oído o leído a alguien quejarse de que el término “variable aleatoria” es desafortunado; que, en puridad, una “variable aleatoria” es una función; pero que todo el mundo lo hace y que no queda otra que cargar —¡una vez más!— con el peso del consenso y la tradición.

Pero cabe preguntarse: ¿hasta dónde y cuándo se remonta? El término tiene evocaciones viejunas y uno está tentado de buscar sus orígenes en, no sé, algún Bernoulli —¿Jacobo?—, Laplace o el mismo Pascal. Pero estos autores todavía no habían alcanzado el nivel de abstracción al que estamos acostumbrados hoy: donde nosotros usaríamos “variable aleatoria” ellos hablan de eventos, bolas, tiradas de monedas, ganancias de un jugador u otras concreciones.

"Ensembles" meteorológicos: ¿probabilísticos o no?

Primero, una brevísima introducción al uso de ensembles en meteorología:

  1. Los metereólogos tienen modelos físicos deterministas que permiten proyectar a futuro el estado presente del tiempo (o de otros estados presentes hipotéticos).
  2. Sin embargo, esos modelos (tanto por su propia naturaleza como por las simplificaciones computacionales sin cuyo concurso las proyecciones serían materialmente inviables) son muy sensibles a las condiciones iniciales de partida (véase la gráfica anterior).
  3. Luego se realizan ensembles, i.e., proyecciones partiendo de pequeñas variaciones de las situaciones iniciales, que luego se agregan de cierta manera (para más detalles, consúltese el libro Física del caos en la predicción meteorológica y, en particular, el capítulo 27).

Y ahora, las preguntas son:

Un problema no tan simple de probabilidades resuelto usando frecuencias naturales

El otro día se propuso un problema de probabilidad sencillo en su planteamiento aunque de solución no trivial (véase el planteamiento y una solución) que tenía como intención original poner a prueba las intuiciones de las probabilidades de eventos.

El problema se enuncia así:

Una pequeñísima proporción de recién nacidos tienen cierto rasgo (genético). Se realizan dos pruebas, A y B, para detectarlo. Sin embargo, las pruebas no son muy precisas:

  • El 70% de los recién nacidos con test A positivo tienen el rasgo (y el 30% no).
  • El 20% de los recién nacidos con test B positivo tienen el rasgo (y el 80% no). También se sabe que las pruebas son independientes en el siguiente sentido:
  • Si un recién nacido tiene el rasgo, el resultado de la prueba A es independiente del de la prueba B.
  • Si un recién nacido no tiene el rasgo, el resultado de la prueba A es independiente del de la prueba B. Ahora, un recién nacido es positivo en ambas pruebas. ¿Puedes estimar la probabilidad de que tenga el rasgo?

Una solución algebraica (con el teorema de Bayes de por medio) puede consultarse en uno de los enlaces proporcionados más arriba. Como anunciaba, sin ser extraordinariamente compleja, no es trivial. También será útil pensar, más que en términos de probabilidades, de odds.

Probabilidades subjetivas: una redefinición "profesional"

Hace un tiempo traje a estas páginas (aquí) la definición de probabilidad (en su variante subjetivísima) que dizque Sam Savage aprendió de su padre. La reproduzco aquí:

He [L.J. Savage] encouraged me from a young age to think of the probability of an event as the amount I would pay for a gamble that would pay $100 if the event occurred.

Pero, ¿cómo hacen los pros? ¿Cómo hacen realmente los que se ganan la vida haciendo estimaciones probabilísticas subjetivas?

¿Es Bunge un fraude?

Mi primer contacto con la obra de Mario Bunge fue en mi época de estudiante en Zaragoza. Por algún motivo —probablemente, porque en aquella época repasar los lomos de los libros en las bibliotecas y librerias era el equivalente al perder el tiempo en internet de hogaño— cayó en mis manos un libro suyo. Solo recuerdo que leerlo requirió más empeño que aprovechamiento trujo a aquel chaval de provincias.

El segundo —hará un par de años— fue una grabación de una conferencia que dio en Buenos Aires. La guardé en algún lugar para comentarla en estas páginas porque de todo lo que contaba en una hora no alcancé a darle la razón —más bien, el beneficio de la duda— más que en que llovía en Buenos Aires esa tarde. Desafortunadamente, no he podido dar otra vez con ella.

Monty Hall, reformulado

  1. Considérese el siguiente juego:
    1. Hay tres sobres indistinguibles sobre una mesa.
    2. Uno de ellos contiene un premio.
    3. Puedes elegir o bien uno de ellos o bien dos de ellos al azar.
  2. Convénzase uno de que es mejor elegir dos sobres que uno: tienes una probabilidad de ganar el premio de 2/3 contra la de 1/3 si eliges solo uno.
  3. Convénzase uno de que el problema de Monty Hall en su formulación habitual es solo una reformulación artificiosa y engañosa del juego anterior.

Dos cuestiones sobre la naturaleza de la probabilidad planteadas por Keynes en 1921 pero que siguen hoy igual de vigentes

I.

A Treatise on Probability, la obra de Keynes (sí, el famoso) de 1921, es un libro muy extraño que se puede leer de muchas maneras. Puede servir, si se hace poco caritativamente, para denunciar el lastimoso estado en el que se encontraba la probabilidad antes de la axiomatización de Kolmogorov, 12 años depués de su publicación. O también, si se hace más cuidadosamente, para rescatar una serie de consideraciones que aun hoy muchos hacen mal en ignorar.

Aún más sobre propagación de errores (y rv)

[Menos mal que se me ha ocurrido buscar en mi propio blog sobre el asunto y descubrir —no lo recordaba— que ya había tratado el asunto previamente en entradas como esta, esta o esta.]

El problema de la propagación de errores lo cuentan muy bien Iñaki Úcar y sus coautores aquí. Por resumirlo: tienes una cantidad, $latex X$ conocida solo aproximadamente en concreto, con cierto error e interesa conocer y acotar el error de una expresión $latex f(X)$.

Nuevo vídeo en YouTube: "¿Se pueden estimar probabilidades pequeñas con pocas observaciones?"

Acabo de subir un nuevo vídeo a Youtube,

en el que discuto dos problemas: uno, general, que es el que indica su título; y otro más concreto que es su motivación última: si es posible asegurar que la combinación de vacunas es segura a través de un estudio realizado con 600 sujetos, tal como el realizado por el ISCIII recientemente.

Sobre las probabilidades de eventos que ocurren una única vez

La probabilidad se predica de eventos de muy distintas características. Existe un arco entero de casos en cuyos extremos opuestos podemos encontrar los eventos:

  • Obtener cara al lanzar esta moneda.
  • Que X gane las elecciones que ocurrirán en un mes.

La principal diferencia, por si alguien lo lo ha advertido, es que el primer tipo de evento puede repetirse cuantas veces se desee mientras que esas elecciones ocurrirán una única vez. Existen muchas interpretaciones de la probabilidad bajo las que pueden entenderse ambos problemas y todas (¡o casi!), al final, son compatibles de alguna manera con los axiomas de Kolmogorov: podría decirse que se trata de dos modelos distintos para un mismo formalismo, el de Kolmogorov.

¿La teoría de la probabilidad no extiende la lógica?

Después de haber estado un tiempo —hasta tener que interrumpirlo para convertirme en un elemento socialmente productivo— leyendo sobre cómo la teoría de la probabilidad extiende la lógica (Jaynes, Hacking y compañía), he incurrido en Probability theory does not extend logic. Se trata de un ensayito recomendable pero sobre el que advierto a sus posibles lectores que decae rápidamente de mucho al fango.

De él extraigo una interpretación muy heterodoxa de la probabilidad condicional expresada en términos de la lógica de predicados. Dice el autor que una expresión del tipo

Un argumento para usar la normal: la maximización de la entropía

Llegaré a la normal. Antes, algo sobre la entropía.

Nos interesa saber y medir el grado de concentración de una distribución. Por ejemplo, si X es una variable aleatoria con función de densidad $latex f(x)$ y $latex x_1, \dots, x_n$ es una muestra de X, entonces, la expresión

$$ \frac{1}{n} \sum_i f(x_i)$$

da una idea de la concentración vs dispersión de X:

  • Si es grande, muchos de los $latex x_i$ procederán de lugares donde $latex f$ es grande; en un caso discreto, que tal vez ayude a mejorar la intuición sobre la cosa, habría muchos valores repetidos.
  • Si es pequeño, muchos de los $latex x_i$ procederán de puntos de baja probabilidad; en un caso discreto, aparecerían muchos valores $latex x_i$ diversos y de probabilidad baja.

La expresión anterior converge a

Sobre sumas de cuadrados de normales con varianzas desiguales

En mi entrada anterior mencioné cómo la suma de cuadrados de normales, aun cuando tengan varianzas desiguales, sigue siendo aproximadamente $latex \chi^2$. Es el resultado que subyace, por ejemplo, a la aproximación de Welch que usa R por defecto en t.test. Puede verse una discusión teórica sobre el asunto así como enlaces a la literatura relevante aquí.

Esta entrada es un complemento a la anterior que tiene lo que a la otra le faltan: gráficos. Al fin y al cabo, es un resultado que se prueba a ojo: efectivamente, la suma de […] tiene aspecto de $latex \chi^2$, determinemos su parámetro.