Capítulo 1 Eventos y probabilidades
En este capítulo se introducen los conceptos de eventos y de las probabilidades asociadas a ellos. Desde el punto de vista de la teoría de la probabilidad, las probabilidades asociadas a los eventos son o bien conocidas o se pueden calcular deductivamente aplicando determinadas reglas. En esto se distingue de la estadística, el asunto de la segunda parte de este libro. En estadística se observarán fenómenos aleatorios y el problema consistirá en, inductivamente, tratar de esclarecer el mecanismo aleatorio subyacente.
1.1 Concepto intuitivo de probabilidad y sus límites
No existiríamos como especie sobre la faz de la tierra si no estuviésemos evolutiva y socialmente enseñados a tomar ciertas decisiones en contextos de información parcial: p.e., ¿será aquello que mueve las ramas un oso hambriento que nos acecha desde la espesura? Ciertos mecanismos automáticos, ciertas costumbres aprendidas y otros condicionantes sobre los que el autor de este libro es la fuente menos fiable, han dejado en nosotros procedimientos intuitivos para convivir y operar con posibilidades, grados de certeza, riesgo y, en general, la incertidumbre. Las distintas lenguas, de hecho, disponen de mecanismos tanto léxicos como sintácticos para expresar la incertidumbre desde mucho antes de que quedasen rigurosamente formalizados.
De hecho, la necesidad de tomar decisiones razonablemente buenas no se restringe a los seres humanos: todas las especies disponen de mecanismos más o menos sofisticados para operar y sobrevivir en entornos inciertos. Incluso llega a darse el caso de que otras especies nos superan en determinados problemas: véase, por ejemplo, (Herbranson 2012), que compara la habilidad de los humanos y las palomas en el problema de Monty Hall, con ventaja para las segundas.
Las intuiciones primarias de probabilidad e incertidumbre, a pesar de habernos servido en multitud de situaciones cotidianas, tienen notables limitaciones. Todos tendemos a equivocarnos al operar con probabilidades intuitivas en determinadas circunstancias, como pusieron de manifiesto A. Tversky y D. Kahneman al plantear, junto con otros, el siguiente problema a un panel de voluntarios:
Linda tiene treinta y un años, es soltera, abierta y muy brillante. Estudió filosofía en la universidad. Cuando era estudiante, se implicó en la denuncia de la discriminación y abogó por la justicia social. También participó en manifestaciones antinucleares. Ahora, se pide ordenar los siguientes escenarios según su verosimilitud: Linda es: 1. una maestra de educación primaria, 2. parte del movimiento feminista, 3. cajera en un banco, 4. vendedora de seguros o 5. una cajera en un banco activa en el movimiento feminista.
Un porcentaje grande de quienes se enfrentan a estas preguntas —y el experimento se ha repetido frecuentemente con el mismo resultado, incluidos alumnos de cursos enseñados en el pasado por el autor— consideran más probable la opción 5 que la 3, a pesar de que el primer evento está contenido en el segundo.
Otra situación que confunde nuestro sistema intuitivo de razonamiento probabilístico planteado por los mismos autores es el siguiente (Tversky and Kahneman 1974):
Durante un año, dos hospitales registraron el número de días en los que en más del 60% de los partos nacieron niñas. ¿Qué hospital crees que registró más días de ese tipo? 1. El hospital más grande. 2. El hospital más pequeño. 3. Aproximadamente los mismos (p.e., con una diferencia de no más del 5%).
De nuevo, muchos de a quienes se plantea el problema anterior no aciertan con la respuesta correcta, la segunda. Pero no se trata solo de estudiantes: a finales de los noventa, se observó en EE.UU. que la proporción de alumnos destacados era mayor en colegios más pequeños se pensó que podría existir una relación causal entre ambos fenómenos. Eso llevó a implementar una serie de políticas dirigidas a reducir el tamaño de los colegios —llegándose a dividirlos— en la que incluso participó la fundación de Bill Gates con aportaciones millonarias (Wainer and Zwerling 2006).
1.2 Aproximaciones a la teoría de la probabilidad
Como consecuencia de todo lo anterior, diversos pensadores y escuelas han tratado de establecer principios y reglas para razonar y operar sobre probabilidades sin cometer errores como señalados en la sección anterior.
La lógica es una disciplina que nos enseña procedimientos para obtener conclusiones ciertas a partir de premisas ciertas y evitar errores de razonamiento. Por eso, diversos autores, entre los que cabe citar a Keynes, Carnap, Jeffreys, Ian Hacking o Jaynes, elaboraron a lo largo del siglo XX una aproximación a la teoría de la probabilidad que extendía de cierta manera la lógica tradicional. Así, en (Hacking 2001) se lee:
Los argumentos válidos [los de la lógica tradicional] no entrañan riesgo. La lógica inductiva [el nombre que da el autor a la extensión de la lógica tradicional] estudia argumentos con riesgo. Un argumento con riesgo puede ser muy bueno, pero puede suceder que su conclusión sea falsa a pesar de que sus premisas sean ciertas.
La lógica inductiva (y la teoría de la probabilidad) nos enseña igualmente a comparar y operar con predicados que no tienen asociados alguno de los atributos verdadero o falso, sino a los que asociamos grados de certeza para evitar, entre otras cosas, cometer errores como en el problema de Linda, un caso paradigmático de aplicación de la lógica inductiva.
Por su parte, desde Pascal en adelante, muchos matemáticos estudiaron las reglas que rigen ciertos fenómenos que se repiten (p.e., tiradas de dados), describieron muchas de sus propiedades y contribuyeron a resolver distintos tipos de problemas y paradojas que se planteaban en esos contextos. El punto de arranque histórico de la teoría clásica de la probabilidad puede fecharse en el momento en el que Antoine Gombaud, conocido como el caballero de Méré, propuso el siguiente problema:
Dos jugadores acuerdan jugar cierto número de partidas —por ejemplo, una serie al mejor de siete— y son interrumpidos antes de terminar. ¿Cómo deberían repartirse las apuestas si, por ejemplo, uno de ellos ha ganado tres partidas y el otro una?
La correspondencia que generó este problema entre el caballero de Méré, Pascal y Fermat se considera el inicio de la teoría de la probabilidad. Que, por supuesto, no se ocupaba solo de juegos de azar sino que encontró aplicaciones en el estudio de fenómenos a los que podían asociarse, vía repetición, frecuencias. Por ejemplo, el problema del hospital de la sección anterior y otros muchos planteados por las ciencias experimentales.
En contraposición con la anterior propuesta inductiva, existe otra escuela que propugna las llamadas probabilidades subjetivas. De acuerdo con L. J. Savage (Savage 2004), la probabilidad de un evento sería:
La máxima cantidad de dinero que apostarías si alguien te ofreciese un euro si el evento en cuestión sucediese.
Si estuvieses dispuesto a poner como máximo 20 céntimos por tener derecho a recibir un euro mañana si lloviese, estarías estimando la probabilidad de lluvia en un 20%. El programa de la escuela subjetivista parece estar en conflicto con los objetivos de la sección: los de razonar sin error bajo incertidumbre. Parecería postular que cualquier asignación de probabilidad a cualquier evento que haga cualquier sujeto es válida: al fin y al cabo, se trata de su probabilidad subjetiva. Sin embargo, estas probabilidades subjetivas están sometidas a un sistema de reglas que obligan a los agentes a actuar racionalmente. Si no lo son, es probable que acepten participar en un juego de azar convenientemente orquestado en el que esperen un beneficio casi seguro cuando, en realidad, están condenados a perder hasta la camisa (Dutch book 2020).
Este tipo de aproximación a la probabilidad encuentra su ámbito más natural de aplicación, además de en el mundo de las apuestas, en la toma de decisiones estratégicas y otros ámbitos en los que se espera que de las estimaciones de las probabilidades de deriven acciones y estas entrañen pérdidas y ganancias —frecuentemente monetarias— explícitas.
1.3 Los axiomas de Kolmogorov
Todas las aproximaciones a la teoría de la probabilidad —y alguna más que no se cita— de la sección anterior son modelos de un formalismo único que las atraviesa. Son, en el fondo, versiones o manifestaciones de un mismo andamiaje teórico, más abstracto, que se presenta en esta sección.
La ventaja de aquellas formulaciones es que son más naturales, están más próximas a lo que un estadístico o científico de datos vive en su quehacer diario que a la que se presenta a continuación, mucho más abstracta y árida. Sin embargo, cualquier formulación que quiera realizarse de la teoría de la probabilidad debería ser compatible con esta. De hecho, una de las primeras cosas que hace cualquier proponente de formulaciones alternativas es comprobar su equivalencia con la propuesta por Kolmogorov: de no ser así, es casi seguro que va a ser muy problemática.
Con los axiomas de Kolmogorov, de 1933 y su rápida y prácticamente universal aceptación, se cerró una búsqueda que había durado, por lo menos, decenios. En 1900, David Hilbert, en su famosa lista de los veintitrés grandes problemas abiertos de las matemáticas, ya había señalado, en el sexto, el de la axiomatización de la probabilidad como uno de los más importantes. Existieron otras formulaciones menos afortunadas, como la que ensayó Richard von Mises (no confundir con su hermano Ludwig) con más insistencia que éxito. De hecho, es muy instructivo repasar la literatura sobre probabilidad previa a Kolmogorov y cómo, a falta de un fundamento sólido, algunos pasajes son enternecedoramente especulativos: el autor recuerda, por ejemplo, un capítulo del libro de J.M. Keynes, (Keynes 1921), donde se consideraba la posibilidad de que las probabilidades, en el fondo, no fuesen números dada la imposibilidad de ordenarlas —más específicamente, comparar las probabilidades de toda pareja de eventos— en algunos problemas prácticos.
1.3.1 Conjuntos y eventos
En algunos formalismos de la teoría de la probabilidad se opera sobre proposiciones. Una proposición es, por ejemplo, mañana lloverá. A estas proposiciones se les pueden asignar niveles de certidumbre —o probabilidades— que tienen que cumplir ciertas reglas. Por ejemplo, aunque no sepamos exactamente la probabilidad de que mañana llueva, sí que podríamos llegar a la conclusión de que es mayor que la probabilidad de que llueva mañana y pasado. O menos de que llueva mañana o pasado.
En el formalismo de Kolmogorov se habla más bien de eventos. En probabilidad, en español, hemos adoptado evento para lo que contingencia sería más apropiado. Según el DRAE, una contingencia es una cosa que puede suceder o no suceder. Evento, sin embargo, es o algo que sucede (o cierto) o eventualidad, hecho imprevisto, o que puede acaecer, que tiene un matiz hacia lo inesperado que no es predicable de los eventos habituales en la teoría de la probabilidad: que en una tirada de un dado salga un seis no es algo imprevisible. Sin embargo, en lo que sigue, se usará evento por ser el término más habitual en este contexto.
Los eventos no son atómicos: siempre se pueden subdividir. El evento tiro un dado y obtengo un seis admite el subevento tiro un dado con la mano izquierda y obtengo un seis; el evento el Real Madrid ganará el domingo, el subevento el Real Madrid ganará el domingo 2-1; etc. ¿Cómo representa el formalismo de Kolmogorov los eventos de manera que se preserve su condición de divisibilidad? Como conjuntos. Un evento es, pues, un conjunto. Y si \(A\) es el evento tiro un dado y obtengo un seis y \(B\) es el evento tiro un dado con la mano izquierda y obtengo un seis, siempre se puede escribir que \(B \subset A\).
En las matemáticas elementales aprendimos que los conjuntos son colecciones de elementos. Pero en la interpretación de los eventos como conjuntos, queda sin definir cuáles son esos elementos que conforman los conjuntos. Estos conjuntos tendrán subconjuntos, podrán unirse, intersecarse, etc. Pero no quedará nunca claro —ni será necesario aclarar— cuáles son esos elementos que los integran.
Podría especularse con que un elemento podría ser, por ejemplo, un estado global del universo o, si se quiere, una hipotética historia completa del universo —¿sería este un evento indivisible?— pero, ¿para qué invertir tiempo en esas cuestiones?
Como conjuntos que son, se puede operar con eventos usando los operadores habituales de la teoría de conjuntos. Así, por ejemplo, \(A \cup B\) es el evento consistente en que ocurra el evento \(A\) o el evento \(B\); y \(A \cap B\), que ocurran ambos. Se suelen reservar los nombres \(\Omega\) y \(\emptyset\) para el evento total, que incluye todas las posibles contingencias, y el vacío, que no contiene ninguna; el primero de ellos ocurre siempre y el segundo, nunca. Que no ocurra el evento \(A\) (el complementario de \(A\)) se puede representar como \(\Omega \setminus A\), aunque también se utiliza la notación \(\bar{A}\).
Las operaciones sobre conjuntos (unión, intersección, etc.) están directamente relacionadas con el álgebra de Boole: variables que pueden ser T
o F
y operadores como AND
, OR
, NOT
o XOR
. Y, en última instancia y hasta cierto punto, con el lenguaje cotidiano y las expresiones que involucran las conjunciones y u o o el adverbio no; eso sí, hay que recordar que el lenguaje habitual, usado sin el debido cuidado, da lugar a imprecisiones que solo los distintos formalismos permiten depurar.
En ocasiones —no demasiadas, hay que advertir— es útil representar los eventos mediante diagramas de Venn como los siguientes:
1.3.2 Probabilidades
La probabilidad es una función que asigna a conjuntos —o eventos– un número entre 0 y 1. Matemáticamente, para cada evento \(A\),
\[P(A) = x, \; \;0 \le x \le 1.\]
La función \(P\) está sujeta a ciertas reglas que fueron axiomatizadas por Kolmogorov en los años 30. Los axiomas de Kolmogorov son
- \(P(A) \ge 0\)
- \(P(\Omega) = 1\)
- \(P(\cup A_i) = \sum_i P(A_i)\) si los \(A_i\) son eventos mutuamente excluyentes, es decir, con intersección vacía.
De los axiomas de probabilidad —sorprendentemente simples y concisos— se deducen propiedades razonables de la probabilidad; p.e., si \(A \subset B\), entonces \(P(A) \le P(B)\).
Ejercicio 1.1 Demuestra la proposición anterior.
Como se ha indicado más arriba, existen otros formalismos de la teoría de la probabilidad. Por ejemplo, la de la probabilidad subjetiva: en ella, los sujetos valoran las probabilidades de los eventos de acuerdo con una serie de principios y reglas. Pero puede probarse que estas son racionales (y, de hecho, compatibles con la supervivencia del sujeto) si se comportan como las que se derivan de los axiomas anteriores, y viceversa. Lo mismo sucede con cualquiera de las restantes aproximaciones concebibles a la teoría de la probabilidad. El formalismo de Kolmogorov es abstracto y, puede argumentarse, antiintuitivo. Otros pueden resultar más útiles o cómodos en situaciones concretas. Pero, en el fondo, si han de ser internamente consistentes —y no ser meras ensoñaciones—, habrán de ser compatibles con el formalismo de Kolmogorov.
1.4 Bibliografía razonada
La Wikipedia es una referencia para aprender más sobre los axiomas de probabilidad de Kolmogorov (Probability axioms 2020). Por otra parte, libros de teoría de la probabilidad como (Gnedenko 1998) (capítulo 1), proporcionan una introducción accesible e ilustrada con ejemplos y ejercicios resueltos del material de esta sección. La Wikipedia (Subjective expected utility 2020) es también una primera fuente para aprender más sobre la aproximación subjetiva a la probabilidad. Los desavisados y los descreídos de las cuestiones anteriores corren el peligro ser atizados por un libro holandés (Dutch book 2020).
Para saber más sobre el caso de Linda y la llamada falacia de la conjunción, se recomienda (Conjunction fallacy 2020). Para verla en acción en un contexto totalmente distinto, el de la difusión de los bulos más rocambolescos, puede consultarse (Paulos 2016).
En (Hoffrage et al. 2002) se discuten distintas representaciones de las probabilidades asociadas a eventos desde una perspectiva sicológica. Es un ejemplo de una vasta literatura que intenta describir y, en la medida de lo posible, paliar las discrepancias existentes entre la formulación logico-matemática de la probabilidad y la forma en la que el cerebro humano concibe y procesa la aleatoriedad. Esta dimensión de la teoría de la probabilidad (y también, como se verá posteriormente), de la estadística, es particularmente importante en la práctica de la ciencia de datos porque esta es una disciplina esencialmente social, cuyo objetivo es construir soluciones basadas en datos que han de ser descritas, comunicadas y utilizadas por terceros con una formación cuantitativa rudimentaria (Gigerenzer and Goldstein 1996).
Finalmente, aunque se ha abierto el capítulo hablando de la toma de decisiones bajo incertidumbre, se ha hablado poco o nada de cómo hacerlo. En realidad, en la toma de decisiones intervienen tres factores: probabilidades, acciones y utilidades (o resultados). De todas ellas, el capítulo solo se ha ocupado del primero, que es necesario pero no suficiente. Los otros dos quedan, en su mayor parte, fuera del alcance de este libro, aunque se volverá sobre ciertos aspectos de ellos al tratar asuntos como las pruebas de hipótesis.
1.5 Ejercicios
Todos los ejercicios siguientes se resuelven más fácilmente o bien relacionándolos con alguna situación cotidiana o tratando de crear representaciones visuales (mediante diagramas de Venn u otras alternativas).
Ejercicio 1.2 Trata de comprender que \(\bar{A} \cap \bar{B} = \overline{A \cup B}\). Puede resultar más sencillo si tratas de asociar a \(A\) y \(B\) algún tipo de evento cotidiano. [Nota: \(\bar{A}\) representa el complementario de \(A\), es decir, no \(A\), si se quiere.]
Ejercicio 1.3 Propón un ejemplo en el que se cumplan las siguientes condiciones (que no se cumplen en general):
- \(P(A \cup B) = P(A)\)
- \(P(A \cup B) = P(A) + P(B)\)
- \(\max(P(A), P(B)) < P(A \cup B) < P(A) + P(B)\)
Ejercicio 1.4 Prueba que \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\). Trata de obtener la expresión correspondiente para tres eventos. También para \(n\) eventos. [Pista: usa los diagramas de Venn.]
Ejercicio 1.5 Pon ejemplos de eventos cotidianos tales que:
- \(P(A \cap B) = P(A)P(B)\)
- \(P(A \cap B) > P(A)P(B)\)
- \(P(A \cap B) < P(A)P(B)\)
Ejercicio 1.6 Prueba (y trata de visualizarlo con algún ejemplo) que si \(P(A \cap B) = P(A)P(B)\), entonces \(P(\bar{A} \cap \bar{B}) = P(\bar{A})P(\bar{B})\).
Referencias
Conjunction fallacy. 2020. “Conjunction Fallacy — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Conjunction_fallacy.
Dutch book. 2020. “Dutch Book — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Dutch_book.
Gigerenzer, Gerd, and Daniel Goldstein. 1996. “Reasoning the Fast and Frugal Way: Models of Bounded Rationality.” Psychological Review 62 (October): 650–69. https://doi.org/10.1093/acprof:oso/9780199744282.003.0002.
Gnedenko, B. V. 1998. Theory of Probability. Taylor & Francis.
Hacking, Ian. 2001. An Introduction to Probability and Inductive Logic. Cambridge University Press.
Herbranson, Walter T. 2012. “Pigeons, Humans, and the Monty Hall Dilemma.” Current Directions in Psychological Science. https://doi.org/10.1177/0963721412453585.
Hoffrage, Ulrich, Gerd Gigerenzer, Stefan Krauss, and Laura Martignon. 2002. “Representation Facilitates Reasoning: What Natural Frequencies Are and What They Are Not.” Cognition 84 (August): 343–52. https://doi.org/10.1016/S0010-0277(02)00050-1.
Keynes, John Maynard. 1921. A Treatise on Probability. Macmillan & Co.
Paulos, J. A. 2016. “The Conjunction Fallacy Explains Why People Believe Fake News.” Slate. https://slate.com/technology/2016/12/the-conjunction-fallacy-explains-why-fake-news-is-believable.html.
Probability axioms. 2020. “Probability Axioms — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Probability_axioms.
Savage, S. 2004. “Prices, Probabilities and Predictions.” https://doi.org/10.1287/orms.2004.03.14.
Subjective expected utility. 2020. “Subjective Expected Utility — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Subjective_expected_utility.
Tversky, Amos, and Daniel Kahneman. 1974. “Judgment Under Uncertainty: Heuristics and Biases.” Science 185 (4157): 1124–31. https://doi.org/10.1126/science.185.4157.1124.
Wainer, Howard, and Harris Zwerling. 2006. “Evidence That Smaller Schools Do Not Improve Student Achievement.” Phi Delta Kappan 88 (December): 300–303. https://doi.org/10.1177/003172170608800411.