Capítulo 2 Eventos y probabilidades

En este capítulo se introducen dos conceptos: el de evento y el de probabilidad (asociada a un evento). Existen dos disciplinas que se ocupan de estos conceptos: la teoría de la probabilidad y la estadística. Para la primera, las probabilidades asociadas a los eventos o bien son conocidas o bien se pueden calcular deductivamente aplicando determinadas reglas. Por su parte, la estadística —de la que se ocupa la segunda parte de este libro— observa eventos y busca cuantificar inductivamente el mecanismo aleatorio subyacente, es decir, las probabilidades correspondientes.

El capítulo presenta los dos conceptos desde varios puntos de vista, unos más intuitivos, otros más formales. No lo hace en absoluto por un afán impráctico de erudición. El motivo principal es que el formalismo que se introducirá al final de la sección está frecuentemente más alejado de las intuiciones necesarias para enfrentarse a determinados problemas que otras interpretaciones de la probabilidad. Aunque sean más parciales y de un ámbito de aplicación más particular, pueden ayudar a resolver problemas concretos.

2.1 Concepto intuitivo de probabilidad y sus límites

No existiríamos como especie sobre la faz de la tierra si no estuviésemos evolutiva y socialmente enseñados a tomar ciertas decisiones en contextos de información parcial: p.e., ¿será aquello que mueve las ramas un oso hambriento que nos acecha desde la espesura? Ciertos mecanismos automáticos, ciertas costumbres aprendidas y otros condicionantes sobre los que el autor de este libro es la fuente menos fiable, han dejado en nosotros procedimientos intuitivos para convivir y operar con contingencias, grados de certeza, riesgo y, en general, la incertidumbre. Las distintas lenguas, de hecho, disponen de mecanismos tanto léxicos como sintácticos para expresar la incertidumbre desde mucho antes de que esta quedase rigurosamente formaliza.

De hecho, la necesidad de tomar decisiones razonablemente buenas no se restringe a los seres humanos: todas las especies disponen de mecanismos más o menos sofisticados para operar y sobrevivir en entornos inciertos. Llega a darse el caso de que otras especies nos superan en determinados contextos: véase, por ejemplo, (Herbranson 2012), que compara la habilidad de los humanos y las palomas en el problema de Monty Hall, con ventaja para las segundas.

Las intuiciones primarias de probabilidad e incertidumbre, a pesar de habernos servido en multitud de situaciones cotidianas, tienen notables limitaciones. Todos tendemos a equivocarnos al operar con probabilidades intuitivas en determinadas circunstancias. A. Tversky y D. Kahneman fueron pioneros en el estudio de estos sesgos. En un artículo de 1981 estudiaron las respuestas de un panel de voluntarios a una serie de problemas, entre los que destaca el siguiente:

Linda tiene treinta y un años, es soltera, abierta y muy brillante. Estudió filosofía en la universidad. Cuando era estudiante, se implicó en la denuncia de la discriminación y abogó por la justicia social. También participó en manifestaciones antinucleares. Ahora, se pide ordenar los siguientes escenarios según su verosimilitud: Linda es: 1. una maestra de educación primaria, 2. parte del movimiento feminista, 3. cajera en un banco, 4. vendedora de seguros o 5. una cajera en un banco activa en el movimiento feminista.

Un porcentaje sustancial de quienes se enfrentan a esta pregunta —y el experimento se ha repetido frecuentemente con el mismo resultado, incluidos alumnos de cursos enseñados en el pasado por el autor— considera más probable la opción 5 que la 3, a pesar de que el primer evento está contenido en el segundo.

El siguiente problema, planteado por los mismos autores en un trabajo anterior, (Tversky and Kahneman 1974), pone en evidencia otro sesgo cognitivo que afecta a nuestro sistema intuitivo de razonamiento probabilístico:

Durante un año, dos hospitales registraron el número de días en los que en más del 60% de los partos nacieron niñas. ¿Qué hospital crees que registró más días de ese tipo? 1. El hospital más grande. 2. El hospital más pequeño. 3. Aproximadamente los mismos (p.e., con una diferencia de no más del 5%).

De nuevo, muchos de a quienes se plantea el problema anterior no dan con la respuesta correcta, la segunda. Pero no yerran solo los estudiantes que suelen componer los grupos que se someten a este tipo de experimentos sicológicos: a finales de los noventa, se pensó en EE.UU. que la proporción de alumnos destacados era mayor en colegios más pequeños. En concreto, alguien revisó una lista de colegios ordenada según la proporción de estudiantes destacados, observó que en los primeros puestos predominaban colegios de pequeño tamaño y se convención tanto a sí mismo como a otros de que podría existir una relación causal entre ambos fenómenos. Eso condujo a implementar una serie de políticas dirigidas a reducir el tamaño de los colegios —llegándose a dividirlos— en la que incluso participó la fundación de Bill Gates con aportaciones millonarias (Wainer and Zwerling 2006).

2.2 Aproximaciones a la teoría de la probabilidad

Como consecuencia de todo lo anterior, históricamente, diversos pensadores y escuelas han tratado de establecer principios y reglas para razonar y operar sobre probabilidades sin cometer errores como los señalados en la sección anterior.

La lógica es una disciplina que nos enseña procedimientos para obtener conclusiones ciertas a partir de premisas ciertas y evitar errores de razonamiento. Por eso, diversos autores, entre los que cabe citar a Keynes, Carnap, Jeffreys, Ian Hacking o Jaynes, elaboraron a lo largo del siglo XX una aproximación a la teoría de la probabilidad que extendía de cierta manera la lógica tradicional. Así, en (Ian Hacking 2001) se lee:

Los argumentos válidos [los de la lógica tradicional] no entrañan riesgo. La lógica inductiva [el nombre que da el autor a la extensión de la lógica tradicional] estudia argumentos con riesgo. Un argumento con riesgo puede ser muy bueno, pero puede suceder que su conclusión sea falsa a pesar de que sus premisas sean ciertas.

La lógica inductiva nos enseña entonces a comparar y operar con predicados que no tienen asociados los atributos verdadero o falso de la lógica tradicional, sino grados de certeza. Esto pondría a la lógica inductiva en condiciones de razonar correctamente acerca de problemas como el de Linda. Hay que señalar que aunque los proponentes de la lógica inductiva estaban originalmente interesados en el problema muy particular de asignar razonablemente grados de certeza a teorías científicas, su ámbito de aplicación rebasa el contexto original y puede aplicarse especialmente para razonar acerca de proposiciones relativas a fenómenos que no se repiten: si un determinado candidato ganará las elecciones, si habrá un accidente nuclear en los próximos diez años, etc.

Por su parte, desde Pascal en adelante, muchos matemáticos estudiaron las reglas que rigen ciertos fenómenos que se repiten (p.e., tiradas de dados), describieron muchas de sus propiedades y contribuyeron a resolver distintos tipos de problemas y paradojas que se planteaban en esos contextos. El punto de arranque histórico de la teoría clásica de la probabilidad puede fecharse en el momento en el que Antoine Gombaud, conocido como el caballero de Méré, propuso el siguiente problema:

Dos jugadores acuerdan jugar cierto número de partidas —por ejemplo, una serie al mejor de siete— y son interrumpidos antes de terminar. ¿Cómo deberían repartirse las apuestas si, por ejemplo, uno de ellos ha ganado tres partidas y el otro una?

La correspondencia que generó este problema entre el caballero de Méré, Pascal y Fermat se consideran los documentos fundacionales de la teoría de la probabilidad. Que, por supuesto, no se ocupaba solo de juegos de azar sino que encontró aplicaciones en el estudio de fenómenos a los que podían asociarse, vía repetición, frecuencias de ocurrencia. Por ejemplo, el problema del hospital de la sección anterior y otros muchos planteados por las ciencias experimentales.

En contraposición con la anterior propuesta frecuentista, existe otra escuela que propugna las llamadas probabilidades subjetivas. De acuerdo con L. J. Savage (Savage 2004), la probabilidad de un evento sería:

La máxima cantidad de dinero que apostarías si alguien te ofreciese un euro si el evento en cuestión sucediese.

Si estuvieses dispuesto a poner como máximo 20 céntimos por tener derecho a recibir un euro mañana si lloviese, estarías estimando la probabilidad de lluvia en un 20%. El programa de la escuela subjetivista parece estar en conflicto con los objetivos de esta sección: los de razonar sin error bajo incertidumbre. Parecería postular que cualquier asignación personalísima de probabilidad a cualquier evento que haga cualquier sujeto es válida: al fin y al cabo, se trata de su probabilidad subjetiva. De hecho, algunos de los proponentes de las probabilidades subjetivas han llegado a sugerir que la incertidumbre no existe en el mundo —en él, las cosas simplemente, ocurren o no ocurren— sino únicamente en la mente; incertidumbre es el nombre que damos a esas situaciones en las que no contamos con toda la información necesaria para resolver un asunto con certeza y la teoría de la probabilidad es un mecanismo mental para tomar decisiones en tales circunstancias. Sin embargo, estas probabilidades subjetivas están sometidas a un sistema de reglas que obligan a los agentes a actuar racionalmente. De otra manera, es probable que los agentes acepten participar en un juego de azar convenientemente orquestado en el que esperen un beneficio casi seguro cuando, en realidad, están condenados a perder hasta la camisa. Este es el llamado argumento del libro holandés (Dutch book 2020).

Este tipo de aproximación a la probabilidad encuentra su ámbito más natural de aplicación, además de en el mundo de las apuestas, en la toma de decisiones estratégicas y otros ámbitos en los que se espera que de las estimaciones de las probabilidades de deriven acciones y estas entrañen pérdidas y ganancias —frecuentemente monetarias— explícitas.

2.3 Los axiomas de Kolmogorov

Todas las aproximaciones a la teoría de la probabilidad de la sección anterior —y alguna más que no se cita— son modelos de un formalismo único que las atraviesa. Son, en el fondo, versiones o manifestaciones de un mismo andamiaje teórico, más abstracto, que se presenta en esta sección.

La ventaja de aquellas formulaciones es que son más naturales, están más próximas a lo que un estadístico o científico de datos vive en su quehacer diario que a la que se presenta a continuación, mucho más árida y abstracta. Sin embargo, cualquier formulación que quiera realizarse de la teoría de la probabilidad debería ser compatible con esta. De hecho, una de las primeras cosas que debe hacer quienquiera que proponga alguna formulación alternativa es comprobar su equivalencia con la propuesta por Kolmogorov: de no ser así, es casi seguro que va a ser muy problemática.

Con la rápida y prácticamente universal aceptación de los axiomas de Kolmogorov, publicados en 1933, se cerró una búsqueda que había durado decenios. En efecto, en 1900, David Hilbert, en su famosa lista de los veintitrés grandes problemas abiertos de las matemáticas incluía el de la axiomatización de la probabilidad. Existieron otras formulaciones menos afortunadas, como la que ensayó Richard von Mises (no confundir con su hermano Ludwig) con más insistencia que éxito. De hecho, es muy instructivo repasar la literatura sobre la teoría de la probabilidad previa a Kolmogorov. A falta de un fundamento sólido, se encuentran algunos pasajes enternecedoramente especulativos: el autor recuerda, por ejemplo, un capítulo del libro de J.M. Keynes, (Keynes 1921), donde se especulaba con la idea de que las probabilidades, en el fondo, no fuesen números dada la imposibilidad de ordenarlas —más específicamente, comparar las probabilidades de toda pareja de eventos— en algunos problemas prácticos. En el fondo, lo que Keynes llamaba probabilidades en ese pasaje no eran otras cosa que distribuciones de probabilidad.

2.3.1 Conjuntos y eventos

En algunos formalismos de la teoría de la probabilidad, como en el de la lógica inductiva, se opera sobre proposiciones. Una proposición es, por ejemplo, mañana lloverá. A estas proposiciones se les pueden asignar niveles de certidumbre —o probabilidades— que tienen que cumplir ciertas reglas. Por ejemplo, aunque no sepamos exactamente la probabilidad de que mañana llueva, sí que podríamos llegar a la conclusión de que es mayor que la probabilidad de que llueva tanto mañana como pasado. Y de que es menor que la de que llueva mañana o pasado.

En el formalismo de Kolmogorov se habla más bien de eventos. En probabilidad, en español, hemos adoptado evento para lo que contingencia sería más apropiado. Según el DRAE, una contingencia es una cosa que puede suceder o no suceder. Evento, sin embargo, es o algo que sucede (o cierto) o eventualidad, hecho imprevisto, o que puede acaecer, que tiene un matiz hacia lo inesperado que no es predicable de los eventos habituales en la teoría de la probabilidad: que en una tirada de un dado salga un seis no es algo imprevisible. Sin embargo, en lo que sigue, se usará evento por ser el término más habitual en este contexto.

En la práctica, los eventos no son atómicos: siempre se pueden subdividir. El evento tiro un dado y obtengo un seis admite el subevento tiro un dado con la mano izquierda y obtengo un seis; el evento el Real Madrid ganará el domingo, el subevento el Real Madrid ganará el domingo 2-1; etc. ¿Cómo representa el formalismo de Kolmogorov los eventos de manera que se preserve su condición de divisibilidad? Como conjuntos. Un evento no es otra cosa que un conjunto. Así, si $A$ es el evento tiro un dado y obtengo un seis y $B$ es el evento tiro un dado con la mano izquierda y obtengo un seis, siempre se puede escribir que $B \subset A$.

En realidad, en el formalismo de Kolmogorov, se habla de un espacio (técnicamente un espacio de medida) y de una colección de conjuntos de elementos de dicho espacio que corresponden a los eventos. En algunos problemas más o menos abstractos, es posible identificar y enumerar los elementos de ese espacio. Pero la genialidad de la axiomatización de Kolmogorov consiste precisamente en identificar los eventos con conjuntos haciendo abstracción de los elementos que estos pudieran contener.

Como conjuntos que son, se puede operar con eventos usando los operadores habituales. Así, por ejemplo, $A \cup B$ es el evento consistente en que ocurra el evento $A$ o el evento $B$; y $A \cap B$, que ocurran ambos. Se suelen reservar los nombres $\Omega$ y $\emptyset$ para el evento total, que incluye todas las posibles contingencias, y el vacío, que no contiene ninguna; el primero de ellos ocurre siempre y el segundo, nunca. Que no ocurra el evento $A$ (el complementario de $A$) se puede representar como $\Omega \setminus A$, aunque también se utiliza la notación $\bar{A}$.

Las operaciones sobre conjuntos (unión, intersección, etc.) están directamente relacionadas con el álgebra de Boole: variables que pueden ser T o F y operadores como AND, OR, NOT o XOR. Y, en última instancia y hasta cierto punto, con el lenguaje cotidiano y las expresiones que involucran las conjunciones y u o o el adverbio no; eso sí, hay que recordar que el lenguaje habitual, usado sin el debido cuidado, da lugar a imprecisiones que solo los distintos formalismos permiten depurar.

En ocasiones —hay que advertir que no demasiadas— es útil representar los eventos mediante diagramas de Venn como los siguientes:

2.3.2 Probabilidades

La probabilidad es una función que asigna a conjuntos —o eventos— un número entre 0 y 1. Matemáticamente, $P$ asigna a cada evento $A$ un número $0 \le P(A) \le 1.$$

La función $P$ está sujeta a ciertas reglas, los axiomas de Kolmogorov, que son las tres siguientes:

$P(A) \ge 0$
$P(\Omega) = 1$
$P(\cup A_i) = \sum_i P(A_i)$ si los $A_i$ son eventos mutuamente excluyentes, es decir, con intersección vacía.

De los axiomas de probabilidad —sorprendentemente simples y concisos— se deducen propiedades razonables de la probabilidad; p.e., si $A \subset B$, entonces $P(A) \le P(B)$.

Ejercicio 2.1 Demuestra la proposición anterior.

El formalismo de Kolmogorov es abstracto y, puede argumentarse, antiintuitivo. Otros pueden resultar más útiles o cómodos en situaciones concretas. Pero, en el fondo, si han de ser internamente consistentes —y no ser meras ensoñaciones—, habrán de ser compatibles con aquel.

2.4 Bibliografía razonada

Existe una creciente literatura acerca de los mecanismos de razonamiento de otras especies en situaciones de incertidumbre. Véase (Valone 2024) sobre la evidencia de razonamiento bayesiano en distintas especies animales para resolver ese tipo de problemas. Piénsese además cómo obras tales como (Oaksford and Chater 2007) defienden que lo que llamamos racionalidad (en los humanos) no es tanto la capacidad para resolver problemas lógicos como la de razonar en situaciones de incertidumbre utilizando principios bayesianos.

Para saber más sobre el caso de Linda y la llamada falacia de la conjunción, se recomienda (Conjunction fallacy 2020). Para verla en acción en un contexto totalmente distinto, el de la difusión de los bulos más rocambolescos, puede consultarse (Paulos 2016).

La Wikipedia es una referencia para aprender más sobre los axiomas de probabilidad de Kolmogorov (Probability axioms 2020). Por otra parte, libros de teoría de la probabilidad como (Gnedenko 1998) (capítulo 1), proporcionan una introducción accesible e ilustrada con ejemplos y ejercicios resueltos del material de esta sección. La Wikipedia (Subjective expected utility 2020) es también una primera fuente para aprender más sobre la aproximación subjetiva a la probabilidad. Los desavisados y los descreídos de las cuestiones anteriores corren el peligro ser atizados por un libro holandés (Dutch book 2020).

En (Hoffrage et al. 2002) se discuten distintas representaciones de las probabilidades asociadas a eventos desde una perspectiva sicológica. Es un ejemplo de una vasta literatura que intenta describir y, en la medida de lo posible, paliar las discrepancias existentes entre la formulación logico-matemática de la probabilidad y la forma en la que el cerebro humano concibe y procesa la aleatoriedad. Esta dimensión de la teoría de la probabilidad (y también, como se verá posteriormente), de la estadística, es particularmente importante en la práctica de la ciencia de datos porque esta es una disciplina esencialmente social, cuyo objetivo es construir soluciones basadas en datos que han de ser descritas, comunicadas y utilizadas por terceros con una formación cuantitativa rudimentaria (Gigerenzer and Goldstein 1996).

Finalmente, aunque se ha abierto el capítulo hablando de la toma de decisiones bajo incertidumbre, se ha hablado poco o nada de cómo hacerlo. En realidad, en la toma de decisiones intervienen tres factores: probabilidades, acciones y utilidades (o resultados). De todas ellas, el capítulo solo se ha ocupado del primero, que es necesario pero no suficiente. Los otros dos quedan, en su mayor parte, fuera del alcance de este libro, aunque se volverá sobre ciertos aspectos de ellos al tratar asuntos como las pruebas de hipótesis.

2.5 Ejercicios

Todos los ejercicios siguientes se resuelven más fácilmente o bien relacionándolos con alguna situación cotidiana o tratando de crear representaciones visuales (mediante diagramas de Venn u otras alternativas).

Ejercicio 2.2 Trata de comprender que $\bar{A} \cap \bar{B} = \overline{A \cup B}$. Puede resultar más sencillo si tratas de asociar a $A$ y $B$ algún tipo de evento cotidiano. [Nota: $\bar{A}$ representa el complementario de $A$, es decir, no $A$, si se quiere.]

Ejercicio 2.3 Propón un ejemplo en el que se cumplan las siguientes condiciones (que no se cumplen en general):

$P(A \cup B) = P(A)$
$P(A \cup B) = P(A) + P(B)$
$\max(P(A), P(B)) < P(A \cup B) < P(A) + P(B)$

Ejercicio 2.4 Prueba que $P(A \cup B) = P(A) + P(B) - P(A \cap B)$. Trata de obtener la expresión correspondiente para tres eventos. También para $n$ eventos. [Pista: usa los diagramas de Venn.]

Ejercicio 2.5 Pon ejemplos de eventos cotidianos tales que:

$P(A \cap B) = P(A)P(B)$
$P(A \cap B) > P(A)P(B)$
$P(A \cap B) < P(A)P(B)$

Nota: cuando $P(A \cap B) = P(A)P(B)$ se dice que los eventos $A$ y $B$ son independientes. Se volverá sobre el concepto de independencia más adelante.

Ejercicio 2.6 Prueba (y trata de visualizarlo con algún ejemplo) que si $P(A \cap B) = P(A)P(B)$, entonces $P(\bar{A} \cap \bar{B}) = P(\bar{A})P(\bar{B})$.

Referencias

Conjunction fallacy. 2020. “Conjunction Fallacy — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Conjunction_fallacy.

Dutch book. 2020. “Dutch Book — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Dutch_book.

Gigerenzer, Gerd, and Daniel Goldstein. 1996. “Reasoning the Fast and Frugal Way: Models of Bounded Rationality.” Psychological Review 62 (October): 650–69. https://doi.org/10.1093/acprof:oso/9780199744282.003.0002.

Gnedenko, B. V. 1998. Theory of Probability. Taylor & Francis.

Hacking, Ian. 2001. An Introduction to Probability and Inductive Logic. Cambridge University Press.

Herbranson, Walter T. 2012. “Pigeons, Humans, and the Monty Hall Dilemma.” Current Directions in Psychological Science. https://doi.org/10.1177/0963721412453585.

Hoffrage, Ulrich, Gerd Gigerenzer, Stefan Krauss, and Laura Martignon. 2002. “Representation Facilitates Reasoning: What Natural Frequencies Are and What They Are Not.” Cognition 84 (August): 343–52. https://doi.org/10.1016/S0010-0277(02)00050-1.

Keynes, John Maynard. 1921. A Treatise on Probability. Macmillan & Co.

Oaksford, Mike, and Nick Chater. 2007. Bayesian Rationality: The Probabilistic Approach to Human Reasoning. Oxford University Press. https://doi.org/10.1093/acprof:oso/9780198524496.001.0001.

Paulos, J. A. 2016. “The Conjunction Fallacy Explains Why People Believe Fake News.” Slate. https://slate.com/technology/2016/12/the-conjunction-fallacy-explains-why-fake-news-is-believable.html.

Probability axioms. 2020. “Probability Axioms — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Probability_axioms.

Savage, S. 2004. “Prices, Probabilities and Predictions.” https://doi.org/10.1287/orms.2004.03.14.

Subjective expected utility. 2020. “Subjective Expected Utility — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Subjective_expected_utility.

Tversky, Amos, and Daniel Kahneman. 1974. “Judgment Under Uncertainty: Heuristics and Biases.” Science 185 (4157): 1124–31. https://doi.org/10.1126/science.185.4157.1124.

Valone, Thomas J. 2024. “Probabilistic Inference and Bayesian-Like Estimation in Animals: Empirical Evidence.” Ecology and Evolution 14 (7): e11495. https://doi.org/10.1002/ece3.11495.

Wainer, Howard, and Harris Zwerling. 2006. “Evidence That Smaller Schools Do Not Improve Student Achievement.” Phi Delta Kappan 88 (December): 300–303. https://doi.org/10.1177/003172170608800411.