Capítulo 3 Distribuciones de probabilidad

Tanto los axiomas de probabilidad enunciados en el primer capítulo como conceptos como la independencia de eventos son para las probabilidades lo mismo que la gramática para el lenguaje: establecen las reglas con las que interactúan las probabilidades de la misma manera que la gramática fija las reglas con las que interactúan las palabras en el discurso. Las distribuciones, por otra parte, equivaldrían al léxico, lo que da significado a las construcciones. Porque no es suficiente saber que si \(A \subset B\), entonces \(P(A) \le P(B)\): frecuentemente también queremos saber cuánto valen \(P(A)\) y \(P(B)\).

En la teoría de la probabilidad las probabilidades de los eventos nos son siempre dadas, se suponen conocidas. En ocasiones de forma implícita, haciendo uso de argumentos epistemológicos para asignar razonablemente probabilidades a determinados tipos de sucesos. Por ejemplo, el llamado principio de indiferencia dice que si \(n\) alternativas son indistinguibles entre sí excepto por su nombre, cada una de ellas tiene una probabilidad de \(1/n\). Este tipo de razonamiento puede aplicarse a lanzamiento de monedas (¿hay algún motivo para que no se cumpla que \(P(H) = P(T) = 1/2\)?), de dados, etc. Este principio es totalmente teórico y predica sobre una moneda abstracta, no una moneda concreta, que bien pudiera tener un sesgo.

El principio de indiferencia nos podría llevar a pensar que existe la misma probabilidad de nacer niño que niña. Sin embargo, esto no es así: la experiencia indica que en la especie humana existe una mayor probabilidad de nacer varón que hembra (Sex ratio 2020). El estudio de los registros históricos permite asignar probabilidades a eventos del tipo:

  • Que un recién nacido sea niña.
  • Que una persona que acaba de cumplir los 80 años sobreviva un año más.
  • Que al lanzar una moneda concreta al aire se obtenga una cara.

Sin embargo, la disciplina que se encarga de todas estas cuestiones ya no es la teoría de la probabilidad, sino la estadística. El hecho, en cualquier caso, de que dicho procedimiento funcione está explicado por la teoría de la probabilidad: se trata de la llamada ley de los grandes números.

Una fuente muy socorrida de información sobre la probabilidad de ciertos eventos al margen frecuentemente de los cauces de la estadística es la de las opiniones de terceros. Esas probabilidades reciben a veces el nombre de subjetivas y están muy emparentadas —algunos podrían argumentar que se trata, de hecho, de la misma cosa— con las probabilidades subjetivas presentadas en el primer capítulo. Siempre se citan como ejemplo los llamados paneles de expertos o se hace referencia al consenso de los jugadores en las casas de apuestas, pero esta información también puede obtenerse (pasivamente) o recabarse (activamente) de otras fuentes más informales e inespecíficas, como la prensa, conversaciones en redes sociales, etc. Estos procedimientos se emplean fundamentalmente para estimar la probabilidad de fenómenos únicos o inhabituales, como el resultado de elecciones o partidos de fútbol, la ocurrencia de accidentes nucleares graves, etc. Hay que tener en cuenta, en todo caso, que el procedimiento anterior, el recurrir a opiniones de terceros, sean no expertos, no resuelve la cuestión enteramente porque, ¿de dónde y cómo extraen esos terceros sus estimaciones de probabilidad?

De todos modos, las probabilidades asignadas a partir del análisis de registros históricos de datos son las que más a menudo se utilizan en la práctica. De hecho, para muchos fenómenos no existe una alternativa a estos métodos puramente empíricos de estimación de probabilidades. Al estar basadas en la repetición de eventos frecuencias observadas más que en opiniones subjetivas, forman el sustrato de la aproximación frecuentista a la estadística.

Cuando se pasa de estimar las probabilidades de eventos en general a la de los eventos generados por variables aleatorias, aparecen las llamadas funciones de probabilidad. La función de probabilidad \(F\) es una función tal que para una variable aleatoria discreta \(X\), \(P(X = x) = F(x)\) y para una variable aleatoria continua, \(P(X \le x) = F(x)\). A \(F\) también se la llama la distribución de probabilidad de \(X\) y obviamente, cada variable aleatoria tiene la suya. Las distribuciones de probabilidad son pues instrumentos matemáticos para describir frecuencias obtenidas, a menudo, empíricamente.

Pero históricamente se ha observado que, en muchas ocasiones, las distribuciones asociadas a fenómenos aleatorios completamente distintos siguen patrones similares. Muchos de estos patrones están estudiados y descritos: son las llamadas distribuciones de probabilidad con nombre, las que aparecen en los libros, incluido este, o en la Wikipedia y pueden servir de plantilla para describir determinados fenómenos aleatorios. Este es el denominado principio de universalidad (relacionado con, aunque no exclusivamente, con otro resultado famoso de la teoría de la probabilidad: el teorema central del límite), que nos puede llevar a considerar como razonable que determinadas variables aleatorias sigan, por ejemplo, una distribución normal, exponencial o de Poisson con solo comprobar que cumplen ciertas propiedades simples y relativamente comunes.

Hay que tener cuidado, en todo caso, en no atribuir a las distribuciones de probabilidad con nombre propiedades universales y dar por hecho que todo fenómeno aleatorio puede describirse con alguna de ellas. Aunque puede que alguna de ellas o de sus variantes pueda usarse como aproximación suficientemente buena para algún fin concreto (p.e., para las alturas de cierta población de personas), no hay garantías de que tenga que ser necesariamente así (p.e., la distribución de los salarios en España o la edad de sus habitantes, que suele representarse mediante las cada vez menos propiamente denominadas pirámides poblacionales).

3.1 Distribuciones de probabilidad discretas

Son las distribuciones correspondientes a variables aleatorias toman valores discretos, como por ejemplo los valores 0 y 1, las letras del abecedario, determinados colores, o los números \(0, 1, 2, \dots\). Ejemplos de ellas son:

  • el número de caras en 100 tiradas de una moneda,
  • el número de siniestros mensual en una compañía de seguros o
  • el número de apariciones de las palabras viagra u oferta en un correo electrónico.

En esta sección vamos a presentar una serie de distribuciones de probabilidad de libro que pueden resultar útiles para modelar fenómenos aleatorios discretos. No hay que olvidar, sin embargo, que un determinado conjunto de datos no tiene por qué seguir alguna de las que se discutirán aquí.

Además, junto con la presentación de una serie de distribuciones discretas y apoyándonos en ellas, iremos introduciendo conceptos estadísticos importantes, como la media o la varianza.

3.1.1 Distribución de Dirac

La distribución de Dirac puede considerarse degenerada: toma siempre (con probabilidad 1) un valor fijo \(a\). Una variable aleatoria de Dirac, por lo tanto, no es aleatoria. Aunque parezca contraintuitivo, la distribución de Dirac tiene su importancia y puede entenderse de dos maneras. La primera, como el elemento básico a partir del cuál se pueden construir otras distribuciones discretas: todas las distribuciones discretas son en el fondo mezclas (un concepto que se presentará más adelante) de distribuciones de Dirac.

La segunda, como una distribución límite. Por ejemplo, el número de goles que se van a marcar en un partido de fútbol es una variable aleatoria cuya incertidumbre se reduce según corren los minutos y su distribución se convierte en una de Dirac apenas finaliza el encuentro. De hecho, lo mismo sucede en todos los eventos sobre los que las casas de apuestas aceptan pujas en tiempo real.

3.1.2 Distribución de Bernoulli

La distribución de Bernoulli es muy simple: es la de una moneda con probabilidad \(P(H) = p\) de cara. Una variable aleatoria de Bernoulli toma valores 0 o 1 (que frecuentemente se usan para codificar otros tales como cara o cruz, éxito o fracaso, etc.). Si \(X \sim \text{Bernoulli}(p)\), entonces

\[ X = \begin{cases} 1 & \text{con probabilidad p}\\ 0 & \text{con probabilidad 1-p} \end{cases}\]

Puede considerarse una mezcla de dos distribuciones de Dirac. A la inversa, la distribución de Dirac es un caso degenerado de la de Bernoulli que ocurre cuando \(p = 0\) o \(p = 1\).

La distribución de Bernoulli es la base de muchos modelos de clasificación. De hecho, una de las tareas más habituales de la ciencia de datos es encontrar el valor \(p_i\) asociado a una determinada acción (de resultado binario) de un sujeto \(i\).

En R podemos obtener una muestra de la distribución de Bernoulli mediante

## [1] 1

o un conjunto de ellas, 10 en este caso, haciendo

##  [1] 0 1 1 1 1 0 1 0 1 1

A pesar de su aparente simplicidad, hay que tener mucho cuidado al usar y al interpretar esta distribución. Se usa, por ejemplo, para estudiar lanzamientos de moneda y también para caracterizar, por ejemplo, el éxito de un determinado tipo de anuncio en internet en función de la probabilidad de click. Pero existe una diferencia fundamental entre ambas aplicaciones. En el primero, el de la moneda, se puede aproximar el valor de \(p\) por el número de caras en una secuencia más o menos larga de tiradas; además, se puede esperar que la proporción de caras obtenidas en futuros lanzamientos rondará ese porcentaje. Lo mismo ocurre con otros dispositivos (dados, ruletas, cartas, etc.) que uno encuentra en los casinos. Pero eso sucede entre otras cosas porque los casinos invierten para evitar el desgaste de esos dispositivos y mantener constante el valor de \(p\). Pero la constancia de \(p\) es la excepción y no la regla.

En situaciones reales, no cabe esperar que \(p\) se mantenga constante. La probabilidad de éxito de un anuncio (o el CTR estimado, en la jerga del márketing digital) no tiene por qué ser ni parecido a la proporción de clicks que vayan a obtenerse un domingo particular, o un martes lluvioso poco antes de navidad, o un viernes de agosto, o… Ese tipo de fenómenos son solo aparentemente de Bernoulli. Se parecen más a una situación descrita mediante la metáfora de la bolsa de monedas: ahora ya no es una moneda con una probabilidad \(p\) de cara la que se tira al aire sino que se mete primero la mano en una bolsa llena de monedas, cada una de ellas con una probabilidad \(p\) distinta, se extrae una, se tira al aire y el proceso se repite un determinado número de veces. Puede, además, que en días distintos se utilice una bolsa de monedas distinta.

3.1.3 La media de una variable aleatoria

Una variable aleatoria es un objeto extraño en el sentido de que puede tomar distintos valores de una manera impredecible: piénsese en un dado. La teoría de la probabilidad, sin embargo, es capaz de identificar (y estudiar) regularidades dentro de ese azar. Por ejemplo, si varias personas realizan —esta realización puede ser efectiva (p.e., tirando una moneda o, más en general, realizando un experimento) o simulada (p.e., usando un ordenador)— una variable aleatoria numérica \(X\) muchas veces y promedian los valores resultantes, obtendrán una lista de números muy parecidos.

Este hecho, al que hoy en día puede que nos hayamos acostumbrado, fue considerado muy paradójico en su día. La intuición imperante siglos atrás es que al analizar, tabular y promediar fenómenos aleatorios, se iban a encontrar igualmente agregados aleatorios. Así, en (Desrosières 2004), se lee:

La aplicación de la ley de los grandes números a la estabilidad de las medias calculadas (por ejemplo, la de las tasas de natalidad, matrimonio, crímenes o suicidios) impresiona a los contemporáneos de Quetelet y constituye el ensamblado de una macrosociología para la cual lo “social” tiene una realidad exterior y superior a los individuos: es la idea central de El suicidio de Durnkheim […].

La media de una variable aleatoria es precisamente ese valor al que se parecen los promedios de realizaciones suyas. Como regla general, para estimarla, se pueden hacer simulaciones. Por ejemplo, para una variable aleatoria de Bernoulli, se puede proceder de la siguiente forma para promediar un millón de realizaciones:

## [1] 0.700509
Ejercicio 3.1 El que los promedios de muchas simulaciones de \(X\) sean parecidos es consecuencia, como se ha dicho arriba, de la llamada ley de los grandes números. Este resultado de la teoría de la probabilidad nos indica los casos en que las medias convergen y también los casos —bastante artificiales— en los que no. Comprueba mediante simulaciones que los promedios de simulaciones de variables aleatorias de Bernoulli convergen y vuelve a repetir el ejercicio más adelante, cuando se llegue a la distribución de Cauchy, para comprobar que en ese caso ocurre algo extraño.

Cuando una variable alatoria discreta \(X\) que toma valores \(a_i\) con probabilidad \(p_i\) —en el caso de las variables de Bernoulli, los valores posibles son 0 y 1 y sus correspondientes probabilidades, \(1-p\) y \(p\)—, al promediar \(N\) simulaciones \(x_i\) se obtiene el valor

\[\frac{1}{N} \sum_i x_i = \sum_j a_j \frac{n_j}{N}\]

donde \(n_j\) es el número de los valores \(x_i\) iguales a \(a_j\). La expresión \(n_j / N\) converge, por la ley de los grandes números, a \(p_j\) y, por tanto, el límite

\[E(X) = \mu(X) = \bar{X} = \sum_j a_j p_j,\]

que es como se define tradicionalmente la media de la variable aleatoria \(X\).

La expresión anterior aplicada a una variable aleatoria de Bernoulli \(X \sim \text{Bernoulli}(p)\) queda en

\[E(X) = 0 \times (1-p) + 1 \times p = p.\]

Si tenemos dos variables aleatorias, entonces \(E(X+Y) = E(X) + E(Y)\). Intuitivamente, si la fábrica \(A\) fabrica, en promedio, 100 unidades y la \(B\) 120, en promedio, conjuntamente, deberían fabricar 220. No obstante, es ilustrativo proporcionar una demostración matemática:

\[E(X+Y) = \sum_{ij} (x_i + y_j) P(X=x_i, Y = y_j) = \\ \sum_{ij} x_i P(X=x_i, Y = y_j) + \sum_{ij} y_j P(X=x_i, Y = y_j) = \\ \sum_i x_i P(X=x_i) + \sum_j y_j P(Y = y_j) = E(X) + E(Y)\] En la expresión anterior se ha usado la marginalización de la distribución conjunta \(P(X=x_i, Y = y_j)\). En efecto,

\[\sum_{ij} x_i P(X=x_i, Y = y_j) = \sum_i x_i \sum_j P(X=x_i, Y = y_j) = \sum_i x_i P(X=x_i).\]

3.1.4 Distribución binomial

La distribución binomial es la de una suma de variables aleatorias de Bernoulli independientes. Permite modelar problemas como el número de caras que se obtinen después de tirar una moneda 15 veces. O el número de clientes que abandonarán la empresa al cabo de un año si la correspondiente tasa de fuga es del 12%.

Por ser una suma de variables aleatorias de Bernoulli, podemos deducir su media: es \(np\). Pero, además de su media, interesa saber cómo se distribuyen los valores alrededor de ese valor. Para ello podemos representar gráficamente su función de probabilidad, que tiene una típica forma de campana (es unimodal) y es ligeramente asimétrica (es simétrica solo cuando \(p = 0.5\)):

En realidad, la función toma valores (en nuestro ejemplo) para cada uno de los enteros entre 0 y 100. Sin embargo, casi toda la probabilidad está concentrada en un entorno de la media, 70.

En R se pueden simular valores de la distribución binomial usando de nuevo la función rbinom:

##  [1]  9  7  7  7  5  7 10  8  6  7  6  7  8  5  8  6  8  8  8  8  8  8  8  9  8
## [26]  6  7  5  6  9  7  8  8  7  8  6  8  8  3  6  7  7  8  7  8  7  6  7  8  6

Además se puede averiguar la probabilidad de cada valor posible de la distribución usando dnorm,

##  [1] 0.0000059049 0.0001377810 0.0014467005 0.0090016920 0.0367569090
##  [6] 0.1029193452 0.2001209490 0.2668279320 0.2334744405 0.1210608210
## [11] 0.0282475249

que no es otra cosa que

\[\binom{N}{n} p^n (1-p)^{N-n},\]

expresión en la que no debería soprender que aparezcan los llamados coeficientes binomiales y que representa la probabilidad de obtener \(n\) éxitos en \(N\) ensayos con una probabilidad de éxito de \(p\).

3.1.5 Centralidad y dispersión

La gráfica de la sección anterior muestra cómo se distribuye la probabilidad de la distribución binomial: se trata de una especie de campana más o menos simétrica situada sobre cierto punto central característico y de una anchura determinada. Patrones similares se observan también en otras distribuciones de probabilidad habituales (aunque no siempre) y ese es el motivo fundamental para estudiar los indicadores de centralidad y dispersión: nos ayudan a describir este tipo de distribuciones.

Ejercicio 3.2 ¿Es simétrica la distribución binomial? Construye algún ejemplo en el que se manifieste claramente la asimetría.

Al decir este tipo de distribuciones se pretende subrayar que esos indicadores son problemáticos a la hora de estudiar otro tipo de distribuciones que no presenten esas características.

La media admite entonces una interpretación como una medida de centralidad: es un valor alrededor del cual podría decirse que pivota la distribución. De hecho, para la distribución binomial es precisamente el valor central. Sin embargo, no es necesariamente un valor típico: pudiera ser, incluso, un valor imposible para la distribución. Eso ocurre precisamente con la distribución de Bernoulli: su media es \(p\), un valor típicamente estrictamente comprendido entre 0 y 1, mientras la variable solo puede tomar los valores 0 o 1.

Una manera alternativas de entender la centralidad es la de interpretarla como el valor que está estrictamente en la mitad. Es decir, aquel que tiene el 50% de las observaciones por encima y el 50% de ellas por debajo, la mediana. Y si por centralidad, abusando del lenguaje, se entiende un valor típico, otra medida alternativa que se usa (menos frecuentemente) es el de la moda, el valor más frecuente.

N. Taleb, en sus libros, distingue dos mundos que operan de manera totalmente distinta: normalistán y extremistán. Normalistán son los taxistas: es improbable que el mejor taxista más eficiente de Madrid gane el doble que el peor. En normalistán tiene sentido hablar de la media: la media de la facturación diarias de los taxistas es bastante representativa de la facturación de cualquiera de ellos. Sin embargo, el mundo de los músicos es extremistán: los hay que ganan millones y los que prácticamente subvencionan su actividad sirviendo cafés. En extremistán la media no es informativa, no significa prácticamente nada pero la mediana todavía es interpretable.

El concepto que complementa al de la centralidad a la hora de describir la forma de una variable aleatoria como las binomiales es de lde la dispersión: la medida en que los valores de la distribución están cerca o lejos de su punto medio (calculado por el procedimiento que sea).

La varianza es un indicador tradicionalmente usado para cuantificar la dispersión. Tanto que en ocasiones ambos términos se utilizan como sinónimos. La varianza se define así:

\[\sigma^2(X) = \text{Var}(X) = \sum_i (x_i - E(X))^2 P(X = x_i)\]

Se trata, pues, de \(E[(X - E(X))^2]\), el promedio de las distancias al cuadrado de cada punto con la media. Lo cual significa que la varianza será pequeña solo cuando los puntos alejados de la media tengan una probabilidad baja. O dicho de otro modo, que casi toda la probabilidad se acumule alrededor de la media.

El hecho de usar el promedio de las distancias al cuadrado puede ser problemático en algunas ocasiones: por ejemplo, cuando un punto está excesivamente alejado de la media, la varianza puede ser muy alta incluso cuando el resto de los valores no muestran gran dispersión. Por eso, a veces, en lugar de la varianza se usa la medida alternativa de la dispersión \(E(|X - E(X)|)\).

Si \(X\) e \(Y\) son independientes, entonces

\[\sigma^2(X+Y) = \sigma^2(X) + \sigma^2(Y).\]

Pero, en general, lo anterior no es cierto. Por ejemplo, en el caso de dependencia más extrema, cuando \(Y = X\),

\[\sigma^2(X+X) = \sigma^2(2X) = 4 \sigma^2(X)\]

No obstante, como aplicación de lo anterior, si \(X \sim \text{Binom}(n, p)\), entonces \(\sigma^2(X) = n p (1-p)\) porque \(\sigma^2(Y) = p(1-p)\) si \(Y \sim \text{Bernoulli}(p)\).

Ejercicio 3.3 Demuestra que si \(X \sim \text{Bernoulli}(p)\), entonces \(\sigma^2(X) = p(1-p)\).

La desviación estándar de \(X\), \(\sigma(X)\), es la raíz cuadrada de la varianza de \(X\). Tiene como ventaja de estar expresada en las mismas unidades (y escala) que \(X\). En algunos casos en los que \(X > 0\), tiene sentido hablar del coeficiente de variación, \(\frac{\sigma(X)}{E(X)}\), que compara la media con la desviación alrededor de la media. Por ejemplo, si \(X\) mide la longitud de los tornillos que produce una máquina, su coeficiente de variación muestra el tamaño relativo de la imprecisión del proceso de fabricación.

Hay que tener en cuenta que tanto la varianza y la desviación estándar como otras medidas numéricas de la dispersión de una variable aleatoria son solo sucedáneos de bajo ancho de banda de la gráfica de la función de probabilidad. Eso quiere decir que de interesarnos comunicar a terceros el grado de dispersión de una variable aleatoria, la primera opción sería hacerles llegar la representación gráfica de la función de probabilidad ; la segunda, tal vez alguna variante suya, como los gráficos de cajas; la tercera, resúmenes como los cinco números de Tukey u otros derivados de ciertos cuantiles esenciales y solo en último lugar, una medida basada en un único número como la varianza o la desviación estándar3.

3.1.6 La distribución multinomial

La distribución multinomial es una extensión de la distribución binomial que se aplica a situaciones en que la variable aleatoria \(X\) puede tomar más de dos valores. Su concreción práctica más habitual tiene que ver con extracciones al azar de bolas de colores de urnas. Cuando no existe reemplazo, es decir, cuando las bolas no se devuelven a la urna, las distintas tiradas no son independientes: de extraerse una bola negra, en la siguiente extracción decrecería la probabilidad de obtener otra bola negra. Este tipo de fenómenos aleatorios, poco frecuentes en ciencia de datos, se pueden simular usando, por ejemplo, la función sample de R.

Sin embargo, cuando existe reemplazo, i.e., las bolas son devueltas a la urna, las distintas extracciones son independientes entre sí. Si las bolas son solo de dos colores, la distribución de probabilidad que les aplica es la binomial. La multinomial es la extensión al caso en el que hay bolas de más de dos colores. En particular, la distribución multinomial (propiamente dicha, obviando que la binomial es un caso particular de ella) aplica cuando existen

  • \(n\) etiquetas (\(n>2\)) y
  • probabilidades \(p_1, \dots, p_n\) (por supuesto, tales que \(\sum_i p_i = 1\)) asociadas a ellas.

La distribución multinomial tiene muchas aplicaciones en ciencia de datos. Por ejemplo, para modelar los tipos de productos que comprará un cliente o las palabras que aparecerán en un texto en función de su asunto4.

Podemos muestrear la distribución multinomial como en el siguiente ejemplo:

##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    0    1    0    0    0    1    0    0    0     0
## [2,]    1    1    2    2    3    0    0    2    2     2
## [3,]    3    2    2    2    1    3    4    2    2     2

El resultado de la simulación son 10 vectores (columnas) de cuatro extracciones de tres elementos (indexados por las tres probabilidades, \(0.1\), \(0.4\) y \(0.5\)). El que una columna sea, p.e., (0, 2, 2) significa que en el experimento se han obtenido dos elementos de la segunda etiqueta y otros dos de la tercera.

Por su parte,

##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    0    0    2    1    0    0    0    0    1     0
## [2,]    1    0    0    0    2    0    1    0    0     0
## [3,]    0    0    0    0    0    0    0    0    2     2
## [4,]    1    1    0    0    0    1    0    1    0     1
## [5,]    0    1    0    2    0    1    0    0    0     0
## [6,]    1    1    1    0    1    1    2    2    0     0

muestra 10 tiradas de 3 dados: cada columna cuenta el número de unos, doses, etc. obtenidos.

La función dmultinom permite comprobar lo atípica que es una determinada configuración. Por ejemplo,

## [1] 0.24

indica que la probabilidad de la configuración (0, 2, 2) es mucho mayor que la de c(2, 1, 1):

## [1] 0.024

3.1.7 La distribución de Poisson

En una ciudad de un millón de habitantes le ocurre algo a alguien un día concreto con una probabilidad del 0.001%; por lo tanto, en promedio hay 10 casos diarios. En otra ciudad de tres millones de habitantes le ocurre a alguien algo con una probabilidad de la tercera parte del 0.001%, así que, de nuevo, se producen 10 casos diarios en promedio. Lo curioso de la situación es que no solo coinciden las medias sino también (aproximadamente), las distribuciones: en efecto,

##  [1] 0.0004539811 0.0022699261 0.0075664809 0.0189163347 0.0378328965
##  [6] 0.0630551427 0.0900791356 0.1125992573 0.1251105362 0.1251106613
## [11] 0.1137369648 0.0947807092 0.0729080920 0.0520770524 0.0347178960
## [16] 0.0216985765 0.0127637920 0.0070909459 0.0037320469 0.0018660067

es aproximadamente igual a

##  [1] 0.0004539932 0.0022699730 0.0075665969 0.0189165365 0.0378331487
##  [6] 0.0630553529 0.0900791957 0.1125991072 0.1251102025 0.1251102442
## [11] 0.1137365857 0.0947804565 0.0729079948 0.0520770871 0.0347180118
## [16] 0.0216987212 0.0127639281 0.0070910546 0.0037321241 0.0018660564

En general, si \(n\) es grande y \(p\) relativamente pequeña, se puede demostrar que las variables aleatorias binomiales de parámetros \(\alpha n\) y \(p / \alpha\) son aproximadamente iguales y que, en el fondo, la distribución solo depende de la media, \(np\). Esa distribución común es conocida como distribución de Poisson, que admite como parámetro el valor \(np\), que se suele denominar intensidad y denotar por \(\lambda\). El nombre hace referencia al número de eventos que cabe esperar, a lo intenso del fenómeno aleatorio que modela.

El hecho de que \(\text{Pois}(np) \sim \text{Binom}(n,p)\) nos permite hacer tres cosas. La primera y más obvia, es la de poder pasar de una a otra caracterización de la variable aleatoria según nuestra conveniencia: a veces nos interesa considerarla como binomial; otras, como de Poisson. Desde el punto de vista de la binomial, se habla de tasas (p.e., \(x\) casos por 100k habitantes) y desde el punto de vista de Poisson se habla de intensidades, (p.e., tantos casos, unos \(30 x\), diarios de media en Madrid). El algunos contextos se tiende a preferir una representación a la otra. Por ejemplo, en el caso de los fallecidos por accidente de tráfico, se prefiere hablar de intensidades, del número de casos. En otros, como los epidemiológicos, en términos de tasas o probabilidades. Cada perspectiva tiene sus ventajas e inconvenientes y la buena noticia es que son perfectamente equivalentes.

La segunda consecuencia de la relación \(\text{Pois}(np) \sim \text{Binom}(n,p)\) es que nos permite caracterizar los casos en que es aplicable la distribución de Poisson. Se necesitan, por ejemplo, sucesos independientes. Así que uno podría cuestionarse hasta qué punto el número fallecidos por accidentes de circulación puede modelarse con una distribución de Poisson habida cuenta de la posibilidad de accidentes con más de un fallecido (respuesta: es algo a tener en cuenta, pero no acaba siendo una objeción relevante: la aproximación es lo suficientemente buena). El mismo argumento podría aplicarse para cuestionar si, por ejemplo, la distribución de Poisson podría aplicarse o no para modelar compras realizadas por clientes a lo largo de un determinado periodo.

La tercera consecuencia es que podemos intuir la forma de la distribución de Poisson: acampanada y con una cola relativamente más larga hacia la derecha. Además, en principio, una variable aleatoria de Poisson podría tomar cualquier valor entero mayor que cero: a diferencia de la distribución binomial y a pesar de la estrecha relación entre ambas, no tiene límite superior.

Haciendo tender a su límite covenientemente la función de probabilidad de la distribución binomial,

\[\binom{N}{n} p^n (1-p)^{N-n},\]

si \(X \sim \text{Pois}(\lambda)\), entonces

\[ P(X = n) = \frac{\lambda^n e^{-\lambda}}{n!} \]

Se puede probar que \(\lambda\) es tanto la media como la varianza de la distribución de Poisson. Esto se puede demostrar utilizando la función de probabilidad anterior en las fórmulas correspondientes o utilizando la aproximación a la binomial.

Ejercicio 3.4 Demuestra la afirmación anterior utilizando la vía de la aproximación a la binomial.

Una propiedad muy útil de la distribución de Poisson es que si \(X_1 \sim \text{Pois}(\lambda_1)\) y \(X_2 \sim \text{Pois}(\lambda_2)\) son independientes, entonces \[X_1 + X_2 \sim \text{Pois}(\lambda_1 + \lambda_2).\]

Dicho de otra manera, si el número de llamadas en una semana es Poisson de parámetro \(\lambda\), el número de llamadas en dos semanas es también Poisson y con parámetro \(2\lambda\). En general, esta propiedad de la distribución de Poisson es muy útil a la hora de componer y descomponer, por ejemplo, series de ventas a distintos niveles de agregación: tienda, provincia, región, etc.

Una limitación en el uso de la distribución de Poisson es el hecho de que su varianza sea igual a su media. O que la media determine su varianza. En la práctica se observan frecuentemente fenómenos que cabría modelar de acuerdo con distribuciones de Poisson pero que tienen una varianza aparente inferior o superior a la esperada, a \(\lambda\). Son los fenómenos conocidos como de infradispersión y sobredispersión respectivamente. La infradispersión es bastante inhabitual y puede manifestarse cuando el fenómeno aleatorio está intervenido que lo acotan de alguna manera. Por ejemplo, el número de llamadas que atiende un teleoperador a lo largo del día podría modelarse con una distribución de Poisson pero la infradispersión podría aparecer si este teleoperador tuviese incentivos por alcanzar un objetivo determinado y muy particularmente si dicho incentivo estuviese tan mal diseñado como para desmotivar esfuerzos adicionales más allá de él. En tales casos cabría observar una excesiva concentración de la variable aleatoria número de llamadas alrededor del umbral del objetivo.

La sobredispersión es, sin embargo, más habitual y suele ser consecuencia de heterogeneidades subyacentes al proceso aleatorio. Por ejemplo, podría pensarse que el número diario de fallecidos en España sigue una distribución de Poisson y su parámetro \(\lambda\) podría estimarse dividiendo el número anual de fallecidos por 365. Eso nos daría el número esperado diario de fallecidos y la distribución de Poisson correspondiente, los rangos de variabilidad diaria. Sin embargo, de aplicar ese procedimiento, se obtendrían valores observados de la mortalidad muy alejados de los predichos por el modelo. Parecería que hay más dispersión de la esperada. El problema es que la intensidad de la mortalidad diaria varía tanto a lo largo del año y como a lo largo de la semana. Se estaría tratando de modelar la mortalidad en un día concreto usando un parámetro \(\lambda\) distinto del que le correspondería bajo un modelo más fino y esa error de especificación tendría como síntoma o manifestación la sobredispersión. El mismo problema ocurre cuando se quieren estimar las ventas diarias en un portal usando una intensidad \(\lambda\) que no tiene en cuenta su posible estacionalidad y otros factores que la hacen variar en el tiempo. Así que es importante recordar que aunque sumas de variables aleatorias de Poisson son de Poisson, sus mezclas no lo son y el hacer como que sí tiene como consecuencia más palpable la sobredispersión.

En ocasiones se trata de corregir la sobredispersión reemplazando la distribución de Poisson por otra que, a pesar de que su origen es totalmente distinto, tiene una forma similar: la distribución binomial negativa. Tal vez la única ventaja de la binomial negativa sobre la distribución de Poisson para modelar conteos es que su media no determina inequívocamente su varianza. En todo caso, hay que recordar que la distribución binomial negativa representa el número de caras que cabe esperar antes de la primera cruz en una tanda de tiradas de monedas. Así que, desde ese punto de vista, su idoneidad para modelar el tipo de conteos más habituales en ciencia de datos es problemática.

3.1.8 Ejercicios

Ejercicio 3.5 ¿Cómo probarías que en R sum(rbinom(15, 1, 0.5)) muestrea la misma variable aleatoria que rbinom(1, 15, 0.5).

Ejercicio 3.6 Simula y representa gráficamente una caminata aleatoria simple. Comienza con el valor 0 en \(t=1\) y en \(t + 1\) genera un valor que sea \(X_t + 1\) con probabilidad \(1/2\) y \(X_t - 1\) con probabilidad también \(1/2\). Prueba también con probabilidades desiguales. Haz caminatas aleatorias de distintas longitudes: 100, 1000, 10000 iteraciones.

Ejercicio 3.7 Crea muchas caminatas aleatorias (de la misma longitud) y representa gráficamente la distribución de la última posición. ¿Qué distribución sigue?
Ejercicio 3.8 En \(t=0\) arrancan 5 caminatas aleatorias. Una de ella, que llamaremos ladrón, lo hace desde la posición 2. Las otras cuatro, que llamaremos policías, lo hacen desde la posición 0. Estima la media y la varianza del tiempo que les lleva a alguno de los policías a atrapar al ladrón.
Ejercicio 3.9 Una empresa tiene un capital inicial de 5 euros. En cada ejercicio gana un euro con probabilidad \(1/3\), pierde un euro con probabilidad \(1/3\) y tiene un resultado nulo con probabilidad \(1/3\). Si algún año la empresa se queda con un capital negativo, la empresa quiebra y desaparece. Estima mediante simulaciones la probabilidad de que la empresa siga operando al cabo de 30 años.
Ejercicio 3.10 Si \(X \sim \text{Binom}(n, p)\) y sabiendo que \(\sigma^2(X) = np(1-p)\), calcula el valor de \(p\) para el que la varianza es máxima, i.e., la dispersión de los datos alrededor de la media es máxima.

Ejercicio 3.11 Si \(X\) es una variable aleatoria binomial \(\text{binom}(n, p)\), entonces la probabilidad \(P(X = x)\) se calcula en R usando dbinom(x, n, p). Si \(n=100\) y \(p = 0.7\), calcula:

  • El valor \(x\) para el que la probabilidad es máxima.
  • El conjunto más pequeño de valores tales que la suma de sus probabilidades exceda el 90%; es decir, los más probables extendiendo la lista justo hasta que la suma de sus probabilidades rebase el 90% (de modo que las probabilidades del resto de los valores sea inferior al 10%).
Ejercicio 3.12 Repite el ejercicio anterior con la distribución de Poisson (de parámetro 10). La función correspondiente es dpois.
Ejercicio 3.13 Usa la distribución multinomial para estimar la media y la desviación estándar de la distribución de la variable aleatoria que cuenta el número de tiradas de 6 dados necesarias hasta lograr un puntaje \(\ge 30\).

Ejercicio 3.14 En un lago hay 1000 peces. Capturas 100, los marcas y los tiras de nuevo al lago. Luego capturas otros 100 y cuentas cuántos tienen marca. Calcula (mediante remuestreos) una aproximación a la probabilidad de que haya 10 peces marcados en la segunda captura.

Pista: selecciona dos veces 100 elementos de entre 1000 y cuenta las coincidencias.

Una mejora: si lo piensas bien, solo hace falta seleccionar una vez, no dos (y la simulación es más rápida).

Nota: este es un ejemplo de una distribución discreta, la distribución hipergeométrica.

3.2 Distribuciones de probabilidad continuas

Las distribuciones de probabilidad continuas son las correspondientes a variables aleatorias relacionadas con eventos como los siguientes:

  • Que mañana la bolsa baje más del 1%.
  • Que alguien sano tenga una concentración de urea en la sangre superior a \(x\).
  • Que alguien sin estudios gane más de 3000 euros al mes; la probabilidad correspondiente en este caso sería una probabilidad condicional (condicionada a que el sujeto no tenga estudios)
  • Que alguien mida más de 1.90 y pese menos de 80 kilos; en este caso, a diferencia de los anteriores, la variable aleatoria es bidimensional: tiene en cuenta la altura y el peso.

En esta sección de explorarán algunas de las distribuciones de probabilidad continuas más usadas en ciencia de datos.

3.2.1 De histogramas a funciones de densidad

Siempre que una variable aleatoria continua X obtenemos observaciones —ya sea muestreando, simulando o realizando experimentos en laboratorio—, podemos representarlas mediante un histograma, como el siguiente:

Los histogramas son representaciones gráficas de datos que seccionan el rango de variación de la variable aleatoria en segmentos (bins) y calculan la proporción de las observaciones obtenidas que caen en cada uno de ellos; estas proporciones definen la altura de los rectángulos que se representan gráficamente.

Conforme se obtienen más observaciones de la variable aleatoria en cuestión, los correspondientes histogramas suelen tender a aproximar una forma continua: en el límite, convergen a una función suave. Esa función suave a la que convergen los histogramas conforme crece \(n\) se llama función de densidad. Si \(f\) es una función de densidad, como consecuencia de cómo se obtiene (es decir, a partir de una sucesión de histogramas en que \(n\) va creciendo), se deducen algunas de sus propiedades más importantes:

  • \(f \ge 0\), dado que los histogramas son \(\ge\) por definición.
  • \(\int_{-\infty}^\infty f(x) dx = 1\), dado que la suma de las proporciones de observaciones en cada uno de los bins del histograma es 1.
  • \(\int_{-\infty}^a f(x) dx = P(X \le a)\), porque la proporción de observaciones conetenidas en los bins a la izquierda de \(a\) es aproximadamente \(P(X \le a)\)

La función de densidad es fundamental en probabilidad y estadística y a partir de ella, como veremos, se pueden definir otras como la de probabilidad o la de cuantiles. Pero es importante tener en cuenta que la función de densidad se construye como el límite ideal de una sucesión de histogramas con un número creciente de datos. Este mecanismo constructivo no es solo interesante por sí mismo sino, además, como se ha indicado más arriba, porque las funciones de densidad heredan las propiedades conocidas de los histogramas.

Obviamente, la construcción anterior de la función de densidad a partir de los histogramas en el caso unidimensional puede extenderse, obviamente, al caso bi y multidimensional.

Para todo fenómeno aleatorio discreto puede construirse una función de densidad que le es específica. Sin embargo, sucede que muchos fenómenos aleatorios comparten función de densidad. O, más bien, las funciones de densidad asociadas a muchos fenómenos aleatorios en principio distintos, son (aproximadamente) comunes: existen motivos, que se discutirán más adelante, por los que muchos histogramas convergen a la función de densidad normal u otras distribuciones de libro, algunas de las cuales se estudiarán luego.

3.2.2 Funciones de densidad, probabilidad y cuantiles

Para ilustrar los conceptos de esta sección, vamos a utilizar un caso hipotético en el que nuestra variable aleatoria será el tiempo discurrido desde que ocurre cierto acontecimiento noticiable hasta que la gente, por el medio que sea, llega a conocer la noticia. Y supondremos que la variable aleatoria que mide ese tiempo sigue una distribución gamma de parámetros 3 y 4, i.e., \(\Gamma(3,4)\).

Existen dos maneras distintas de parametrizar la distribución gamma; en lo que sigue, sus parámetros serán los de forma e intensidad. En nuestro caso, el de escala sería el inverso del de intensidad, i.e., \(1/4\).

3.2.2.1 Función de densidad

Gráficamente, la función de densidad es la siguiente:

Como se ha indicado antes, la función de densidad es siempre positiva (i.e., \(\ge 0\)) y su integral es \(P(\Omega) = 1\). También se puede deducir que su integral entre \(a\) y \(b\), \(\int_a^b p(x) d(x)\) es \(P(a < X < b)\); en nuestro caso, la proporción de personas que se enteran de la noticia entre las horas \(a\) y \(b\); o, de otro modo, la probabilidad de que alguien se entere de ella en ese periodo de tiempo.

La forma de \(p\) indica cómo al principio se enteran de la noticia pocas personas, pero la velocidad de transmisión de la información crece hasta alcanzar un pico alrededor de los 40 minutos (que es cuando más probable es enterarse de ella) para luego decaer lentamente (al menos, con respecto a la velocidad inicial de transmisión). A partir de las 2 horas, son ya pocas las personas que desconocen la noticia.

Todas las distribuciones continuas tienen una función de densidad. Las funciones de R correspondientes son, por ejemplo, dgamma, dnorm, etc. Por convención, siguen esa nomenclatura: d seguido del nombre (tal vez abreviado) de la distribución.

En la gráfica se ha trazado una línea vertical punteada que pasa por el 1 (una hora). La integral de la curva de 0 a 1 es, precisamente, la proporción de personas que se enteran de la noticia en una hora o menos, i.e., \(P(X < 1)\).

3.2.2.2 Función de probabilidad

El tipo de eventos \(X \le a\) son muy importantes y por eso es útil contar con la llamada función de probabilidad, \(F\), definida así:

\[F(a) = P(X \le a).\] Se deduce automáticamente que la función de probabilidad crece desde \(0\) hasta \(1\).

En R, la función de probabilidad sigue la misma nomenclatura que la de densidad, solo que usando p en lugar de d (p.e., pgamma). Usando, precisamente, pgamma podemos representar la función de probabilidad asociada a nuestro problema:

Se ve cómo crece desde \(0\) y cómo se satura hacia el valor \(1\) por la derecha. La recta vertical anterior corta a la curva en el valor \(F(1) = P(X \le 1) \approx 0.762\): el 76% de las personas se enteran de la noticia en una hora o menos.

Ejercicio 3.15 Si \(X\) es la variable aleatoria que representa los sueldos anuales de las personas de un país, expresa en términos de su correspondiente función de probabilidad:

  • La proporción de gente que gana menos de 10k euros.
  • La proporción de los que ganan más de 50k euros.
  • La proporción de los que ganan entre 10k y 20k euros.

3.2.2.3 Cuantiles

Vamos a examinar detenidamente esa última expresión:

El 76.2% de la población se enteró de la noticia en menos de una hora.

Significa que, tal como ya sabemos, \(0.762\) es el valor de la función de probabilidad asociada a \(1\) (hora); pero, visto a la inversa, \(1\) (hora) es el cuantil al 76.2% de la distribución. Es decir, igual que podemos asociar probabilidades a momentos en el tiempo, invirtiendo la relación podemos asociar momentos en el tiempo a probabilidades. Los valores de \(X\) asociados de esa manera a probabilidades son los cuantiles. Y, por supuesto, existe una función, la de cuantiles (con prefijo q en R; p.e., qnorm), que permite responder a preguntas del tipo:

  • ¿En cuánto tiempo se enteró el primer 10%?
  • ¿A partir de cuándo conocía la noticia el 99%?

En R, la respuesta a las dos preguntas anteriores sería

## [1] 0.2755163

y

## [1] 2.101487

respectivamente.

Ejercicio 3.16 Si \(X\) es la variable aleatoria que representa los sueldos anuales de las personas de un país, expresa en términos de su correspondiente función de cuantiles (o de probabilidad, según corresponda):

  • A partir de qué nivel de ingresos se está en el 1% más rico.
  • La mediana de los ingresos.
  • Los ingresos del 5% más pobre.
  • El porcentaje de la población que tiene ingresos por debajo del 60% del ingreso mediano (nota: así define Eurostat el umbral de pobreza (Línea de pobreza 2021)).

3.2.2.4 Media y varianza

Si \(p\) es la función de densidad de una variable aleatoria continua \(X\), entonces, por extensión al caso continuo de la fórmula discutida más arriba para variables discretas, su media es

\[E(X) = \int_{-\infty}^\infty x p(x) dx\]

y su varianza,

\[\sigma^2(X) = \int_{-\infty}^\infty (x - E(X))^2 p(x) dx.\]

De conocerse la forma de \(p\) y resolviendo —de poderse— las correspondientes integrales, pueden obtenerse fórmulas cerradas en algunos casos. Para la distribución \(\gamma\) del ejemplo anterior, se puede obtener (véase (Distribución gamma 2021))

\[E(X) = \frac{\alpha}{\lambda} = 3 /4 = .75\]

y

\[\sigma^2(X) = \frac{\alpha}{\lambda^2} = 3 / 16 = 0.1875\]

Las integrales anteriores también se pueden estimar por simulación, tal como con las distribuciones discretas. Así, usando las funciones correspondientes de R (con prefijo r como, p.e., rgamma o rnorm):

## [1] 0.7504019
## [1] 0.1882951

3.2.2.5 Funciones d, p y q para distribuciones discretas

Las distribuciones discretas (casi todas: algunas no tienen sentido, p.e., para la distribución multinomial) también tienen asociadas estas funciones. Con la salvedad de que la función de densidad está concentrada en determinados puntos,

## [1] 0.375
## Warning in dbinom(2.5, 4, 0.5): non-integer x = 2.500000
## [1] 0

y la función de probabilidad es escalonada:

Por supuesto, también está definida la función de cuantiles. Así, por ejemplo, si el número diario de fallecimientos en un hospital es \(\text{Pois}(20)\), típicamente, con un 90% de probabilidad, el número de fallecidos estará en el rango

## [1] 13 28

Ejercicio 3.17 En un hospital, el número de admitidos diariamente a urgencias es en promedio de 30 y que puede modelarse con una distribución de Poisson (ignorando cuestiones como la estacionalidad intraanual o intrasemanal). Calcular:

  • La capacidad mínima que tiene que tener urgencias para no verse desbordado —en promedio— no más de una vez a año.
  • ¿Y si no quiere verse desbordado más de una vez cada 1000 días?
  • La proporción de los días que tiene menos de 30 admisiones.

3.2.3 La distribución uniforme

La distribución uniforme es, posiblemente, la más sencilla entre las continuas: su densidad es 0 salvo en un determinado rango \([a, b]\) donde es constante (y, como consecuencia, toma el valor \(1 / (b - a)\)). Es decir, solo puede tomar valores en ese rango y, dentro de él, todos son equiprobables.

Es importante, entre otros motivos, por que los generadores de números seudoaleatorios tratan de muestrear una distribución uniforme en \([0 ,1]\). Para generar valores de otras distribuciones es necesario realizar manipulaciones sobre esos valores. Un procedimiento práctico para simular determinadas distribuciones es el siguiente:

  • Obtener una muestra de valores \(x_i\) de la distribución uniforme sobre \([0,1]\).
  • Aplicarles la función de cuantiles (i.e, \(F^{-1}\)) de la distribución objetivo para obtener la muestra \(y_i = F^{-1}(x_i)\).

En efecto, \(P(y_i \le a) = P(F^{-1}(x_i) \le a) = P(x_i \le F(a)) = F(a)\). La tercera igualdad es consecuencia del hecho de que los \(x_i\) tienen una distribución uniforme en \([0,1]\), por lo que \(P(x_i \le a) = a\).

Por ejemplo, la distribución exponencial tiene \(F(x) = 1 - \exp(-\lambda x)\), por lo que \(F^{-1}(x) = \frac{-1}{\lambda} \log(1-x)\) y, como consecuencia, muestrear la distribución exponencial se reduce a tomar logaritmos de valores números seudoaleatorios en \((0, 1)\).

3.2.4 La distribución beta

La distribución beta es una generalización de la uniforme y también toma valores entre 0 y 1. Valores entre 0 y 1 pueden significar muchas cosas pero muy frecuentemente, representan proporciones o probabilidades. De ahí que la distribución beta se utilice a menudo para modelar la incertidumbre sobre una probabilidad.

Esto se entiende mejor con un ejemplo. Los clientes de un banco pueden usar su tarjeta de débito para extraer dinero de cajeros y para pagar en comercios. Puede interesar conocer los hábitos de los clientes: ¿qué tipo de uso tienden a hacer? ¿Cuál es la proporción de veces que usan la tarjeta de uno u otro modo? Si un cliente la ha usado 100 veces y siempre para extraer dinero de cajeros, hay bastante certeza en que \(P(\text{cajeros}) \approx 1\). ¿Pero qué pasa si la ha usado 3 veces, dos de ellas en cajeros y 1 en comercios? En tal caso, \(P(\text{cajeros}) \approx 2/3\), pero el grado de certeza de esa probabilidad es menor que si el cliente la ha usado 300 veces, 200 de ellas en cajeros. A pesar de que la proporción estimada sea la misma.

La distribución beta tiene este aspecto:

Con parámetros (1,1) es uniforme. Conforme aumenta el primer parámetro, tiende a concentrar probabilidad en la parte derecha, alrededor del 1. Eso indicaría que crece nuestra certeza de que el valor de la proporción desconocida es 1.

Para valores iguales de los parámetros la distribución es simétrica y tiene media \(1/2\). Pero conforme aumenta su valor, la distribución se hace más picuda (i.e., decrece la dispersión). Porque, en efecto, la media y la varianza de la distribución beta es, en función de sus parámetros \(\alpha\) y \(\beta\), \(E(X) = \frac{\alpha}{\alpha + \beta}\) y \(\sigma^2(X) = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}\). Aunque la expresión de la varianza ya es de por sí lo suficientemente reveladora, puede mostrarse la convergencia de la distribución beta a una proporción dada en función de del tamaño de los parámetros gráficamente:

Se aprecia cómo al aumentar el tamaño relativo de los parámetros (guardando la misma proporción) aumenta la certeza sobre el valor estimado subyacente (\(2/3\) en nuestro caso). Se puede probar cómo, en la modelación de determinados problemas, los parámetros de la distribución crecen con la cantidad de información disponible (que está directamente relacionada con el número de usos de la tarjeta por parte de un cliente en nuestro ejemplo).

3.2.5 La distribución normal

La densidad de la distribución normal tiene el siguiente aspecto:

Se trata de la famosa campana de Gauss, que, por defecto, está centrada en 0 y tiene desviación estándar 1. Sin embargo, admite dos parámetros, \(\mu\), la media y \(\sigma\), la desviación estándar) que o la desplazan o la contraen o expanden.

La distribución normal tiene una importancia fundamental en la teoría de la probabilidad porque es un atractor de distribuciones. No es solo que la suma de variables aleatorias independientes con una distribución normal tenga también distribución normal sino que, además, la suma de variables aleatorias independientes de otras distribuciones tiende a tener también distribución normal. Por ejemplo, podemos sumar 12 variables aleatorias uniformes independientes y restar seis muchas veces para ver qué aspecto tiene la variable aleatoria resultante:

En efecto, la distribución uniforme tiene media 6 y desviación estándar \(1/12\). Sumando 12 variables aleatorias uniformes y restando seis, se obtiene una variable aleatoria con media 0 y desviación estándar 1. Pero no solo eso: su aspecto es muy similar a la de una normal.

De la misma manera, el aspecto de la distribución binomial que, recuérdese, es la suma de variables aleatorias independientes de Bernoulli, también es acampanado. Y se puede probar que la distribución normal (debidamente parametrizada para que concuerden la media y la varianza) es una aproximación legítima a la binomial cuando \(n\) es lo suficientemente grande.

Esto no es casualidad: el teorema central del límite garantiza en ciertos casos la convergencia de sumas (más bien, promedios) de variables aleatorias a una con la distribución normal. En el caso de la distribución uniforme, como hemos visto, la convergencia es muy rápida: basta (para ciertos fines) sumar 12 de ellas.

El teorema central del límite tiene ciertas restricciones sobre las variables aleatorias que se promedian. Por ejemplo, que sean independientes (aunque esa exigencia se puede suavizar). Otra, que todas sean pequeñas, de manera que ninguna de ellas prevalezca sobre el resto. Esos criterios sirven tanto para intuir que la distribución correspondiente a cierto fenómeno es normal como para argüir en sentido contrario cuando se detecta alguna violación de las restricciones.

El hecho de que la distribución normal ocurra tan frecuentemente en las aplicaciones y que esta esté perfectamente parametrizada, i.e., completamente descrita por su media y su varianza, es probablemente el motivo por el que en muchos ámbitos se considere lo justo y lo necesario describir cualquier distribución de probabilidad en términos de esos dos parámetros. Pero sabemos que no es así y preferimos siempre el histograma para tales fines.

Es cuestionable incluso el hecho de que la distribución normal se use —en oposición a que ocurra— en muchas aplicaciones. En muchos casos se hace por motivos puramente instrumentales —familiaridad, disponibilidad de herramientas analíticas, etc.— más que de adecuación al caso en cuestión.

Por ejemplo, los errores de medida (varios técnicos midiendo una determinada magnitud independientemente) tienden a tener una distribución normal: errores de calibración del instrumental, cambios pequeños en las condiciones físicas, etc. influyen independientemente y en pequeña medida en las observaciones. Puede argumentarse que la altura de las personas sigue una distribución normal: está influida por una miríada de pequeños factores, sean genéticos, nutricionales, etológicos, etc. Pero también puede contraargumentarse: existe un factor genético muy importante, el sexo, que hace que los hombres tiendan a ser más altos que las mujeres. De hecho, la altura de las personas no es normal sino que puede modelarse más adecuadamente como una mezcla de dos normales: las correspondientes a los dos sexos.

3.2.6 La distribución t

La distribución normal tiene colas muy finas y es prácticamente imposible que ocurran eventos alejados de la media. Es una distribución sin outliers. Efectivamente,

## [1] 3.167124e-05

es un número muy pequeño: con la distribución normal solo ocurren eventos situados más allá de 4 desviaciones típicas de la media en 3.1 ocasiones de cada cien mil. Pero muchas variables aleatorias tienen un comportamiento más errático. Por ejemplo, se observan variaciones en el precio diario de las acciones de un tamaño mayor que 4 desviaciones típicas con una frecuencia muy superior a las indicadas arriba, que correspondería a una vez cada 125 años (suponiendo que los mercados abren 250 días al año).

La distribución t es similar a la normal (simétrica, unimodal, etc.) pero tiene colas más gruesas. De hecho, no es una distribución sino una familia de distribuciones parametrizadas por un parámetro, el número de grados de libertad (o df), según el cual las colas son más o menos gruesas:

La distribución t con un grado de libertad, i.e., df = 1 se la conoce también como distribución de Cauchy. Tiene una peculiaridad: no tiene media. Eso se manifiesta, por ejemplo, en que un promedio de muestras de la distribución de Cauchy no converge como tienden a hacer los promedios en que aplica la ley de los grandes números sino que oscila. Eso se debe principalmente a los outliers: la cola de la distribución de Cauchy es tan gruesa que valores de un tamaño tan grande que hacen bascular todo el promedio ocurren frecuentemente.

Así, el uso fundamental de la distribución t es el de reemplazar a la normal cuando se observan outliers en los datos. Para valores altos de su parámetro es prácticamente indistinguible de la dócil distribución normal, mientras que en el otro extremo se convierte en la procelosa distribución de Cauchy; así, una distribución t con valores intermedios del parámetro, por tanto, podrían modelar convenientemente cierto tipo de datos.

3.2.7 Las distribuciones gamma y lognormal

Se trata de dos distribuciones con soporte en los valores \(x > 0\) y que tienen una forma similar:

Ambas son asimétricas y tienen una cola que desciende lentamente hacia la derecha. Se usan para modelar tiempos (hasta que ocurre algún evento) o magnitudes tales como ingresos, que se extienden a través de varios órdenes de magnitud.

La distribución lognormal, que es la exponencial de una distribución normal, ejerce el papel de atractor de distribuciones cuando, en lugar de sumarse, se multiplican. En los mercados financieros, por ejemplo, el precio de una acción que en \(t_0\) vale \(A\), sufre una variación de precio en \(t_1\) que puede expresarse multiplicativamente: \(A (1 + x_1)\), donde \(x_1\) es un valor positivo o negativo, próximo a 0, que indica el porcentaje de variación diario. Al cabo de \(n\) periodos, el precio se convierte en \(A (1 + x_1) \dots (1 + x_n) \approx A \exp(x_1) \dots \exp(x_n) = A \exp(\sum_i x_i)\). Si las sumas de variaciones de precios son (vía el teorema central de límite) aproximadamente normales, la expresión \(\exp(\sum_i x_i)\) será aproximadamente lognormal.

Por eso se usa en ocasiones la distribución lognormal para modelar los resultados bursátiles. Aunque hay que tener en cuenta la discusión anterior sobre la no normalidad de los movimientos diarios del precio de los activos financieros, que arrojan una sombra de sospecha sobre el uso de la distribución lognormal en estos contextos.

No obstante, e independientemente de la pertinencia del uso de la distribución lognormal en estos contextos, el ejemplo anterior ilustra cómo tal vez en otros en los que el efecto de las variables no es aditivo sino multiplicativo, la distribución lognormal puede resultar una herramienta de modelado útil.

La distribución gamma se usa frecuentemente en el llamado análisis de la supervivencia: el estudio estadístico del tiempo que discurre hasta que ocurre un fenómeno aleatorio: que falle una máquina, que fallezca un paciente, cierre su cuenta un cliente, etc.

La distribución exponencial introducida en un ejemplo más arriba es un caso particular de la distribución gamma y suele emplearse en los mismos contextos: el análisis de duraciones, el tiempo discurrido hasta que sucede algo. En este libro no discutiremos apenas los llamados modelos de supervivencia, pero la distribución exponencial juega un papel muy relevante en ellos.

3.2.8 Mezclas de distribuciones

Las distribuciones mencionadas más arriba, ni complementadas con las no consideradas por motivos de espacio, bastan para modelar cualquier fenómeno aleatorio. Deberían considerarse o bien como plantillas, o bien como aproximaciones, o bien, como en esta sección, como piezas para componer distribuciones más realistas.

Una manera de crear distribuciones más fieles a un fenómeno aleatorio es mediante mezclas (en ocasiones, mixturas) de distribuciones como en este ejemplo gráfico:

En él se aproximan unos datos (el histograma) por una distribución (línea negra punteada) que es la mezcla de dos distribuciones normales (líneas continuas de color rojo y verde). Otro ejemplo habitual de mezclas de distribuciones es el de la altura de las personas que, aunque aparentemente normal, es (o es más fielmente) la mezcla de dos normales: las de las normales correspondientes a las alturas de hombres por un lado y mujeres por el otro. Otra situación en la que juegan un papel importante las mezclas de distribuciones es cuando en datos que siguen aparentemente una distribución de Poisson hay un exceso de ceros. Puede ser, por ejemplo, que se esté modelando el número de veces que los clientes de un banco usan su tarjeta de débito al mes; pero ocurre con frecuencia que un porcentaje importante de ellos no la usa nunca. Eso da lugar a los llamados modelos de Poisson con inflación de ceros, que no son otra cosa que una mezcla de la distribución de Poisson con otra de Dirac anclada en el cero.

Para describir una mezcla de distribuciones hace falta especificar dos cosas:

  • Las distribuciones \(X_i\) que se mezclan.
  • Sus correspondientes pesos, \(p_i\) (obviamente, \(\sum_i p_i = 1\)).

Para muestrear una mezcla de distribuciones, se itera el siguiente algoritmo tantas veces como muestras se quieran obtener:

  1. Se obtiene un índice \(i\) al azar de acuerdo con las probabilidades \(p_i\).
  2. Se elige la variable aleatoria correspondiente \(X_i\).
  3. Se muestrea \(X_i\).

Resulta evidente que la media de una mezcla de distribuciones es \(E(X) = \sum_i p_i E(X_i)\). La expresión correspondiente a la varianza es un tanto más complicada.

3.2.9 Distribuciones jerárquicas

La mezcla de distribuciones —al menos tal cual ha sido descrito en la sección anterior— es un caso particular de una técnica para construir las distribuciones con las que modelar fenómenos aleatorios complejos. Por ejemplo, el de las pérdidas por siniestros en una compañía de seguros en un periodo determinado (p.e., un mes), que podría describirse de la siguiente manera:

  • El número de siniestros es \(\text{Pois}(\lambda)\)
  • El impacto económico de cada uno de ellos es lognormal

Aunque tal vez la distribución así descrita no esté descrita en la literatura o tenga un nombre determinado, es posible simularla obteniendo muestras repitiendo cuantas veces sea necesario el siguiente algoritmo:

  1. Se toma un valor \(n\) de una variable aleatoria \(\text{Pois}(\lambda)\)
  2. Se toman \(n\) muestras de una variable aleatoria lognormal (con los parámetros adecuados), \(x_1, \dots, x_n\)
  3. Se toma la suma \(\sum_i x_i\)

Otro ejemplo de utilidad práctica podría ser el siguiente: en un negocio de internet, el número de visitas diarias es una variable aleatoria de Poisson. Un porcentaje (pequeño) de esos visitantes realiza una compra y el precio de la venta es lognormal.

3.2.10 Consideraciones finales

En general, cada tipo de evento tiene su propia distribución de probabilidad. Si nos interesa el número de litros por metro cuadrado que lloverá mañana, probablemente sea adecuado modelarlo como una mezcla de una distribución discreta (de Dirac centrada en cero) con una continua.

En esta sección hemos presentado algunas distribuciones con nombre, que son útiles o inútiles según cómo se considere. Son útiles en tanto que algunos procesos (¡pocos!) siguen ese tipo de distribuciones. También porque aunque solo lo sea aproximadamente, la aproximación resulta lo suficientemente buena. Y, en cualquier caso, porque las propiedades conocidas de las distribuciones con nombre pueden extrapolarse a fenómenos aleatorios cuya distribución se parece a ellas. Finalmente, porque las distribuciones con nombre pueden combinarse de diversas maneras para modelar fenómenos complejos.

Por eso que el problema de determinar qué distribución siguen mis datos, especialmente cuando se formula en términos de cuál de la lista de distribuciones conocidas es mucho menos relevante de lo que muchos opinan.

Existen pruebas estadísticas y medidas de la bondad de ajuste para determinar en qué medida, por ejemplo, unos datos siguen o no la distribución normal. En ese caso se pueden usar pruebas estadísticas como la de Kolmogorov-Smirnov (ks.test en R) u otras técnicas similares.

Pero, en general, es recomendable replantear el problema en otros términos. En primer lugar, reflexionando acerca de si hay razones para suponer que unos determinados datos tienen una de esas distribuciones de libro. En ocasiones puede justificarse. En otras es posible describir la distribución como, por ejemplo, como hemos hecho más arriba, mediante una mezcla de distribuciones o mediante otro mecanismo que simule el mecanismo generativo de los datos usando las distribuciones conocidas como elemento constructivo.

En última instancia, siempre se puede trabajar sobre los datos mismos y estudiarlos sin construcciones matemáticas (las distribuciones de probabilidad) interpuestas. El recurso, tan habitual, a la distribución normal se debe a muchos motivos, de entre los que sobresale el teorema central del límite. Sin embargo, también obedece a motivos espurios: para describir una distribución normal basta con conocer su media y su desviación estándar, solo dos números. Esa concisión fue importante en la época en que tanto el proceso como la transmisión de información era muy onerosa. Actualmente, ese ya no es un problema y podemos operar sobre muestras grandes (o incluso completas) directamente.

3.2.11 Ejercicios

Ejercicio 3.18 Integra la función de densidad dgamma(x, 3, 4) entre 0 y 1 usando integrate. Compara el resultado con el obtenido usando la correspondiente función de probabilidad.

Ejercicio 3.19 Usa optimize para encontrar el valor máximo de dgamma(x, 3, 4).

Nota: el valor máximo de una función de densidad se llama moda.
Ejercicio 3.20 Toma una muestra de tamaño \(n\) de la distribución \(\Gamma(3,4)\) (usando rgamma(n, 3, 4)) y calcula la función de probabilidad empírica usando la función ecdf. Crea un gráfico que la compare con la función de probabilidad original. Utiliza distintos valores de \(n\). ¿Ves algún patrón?
Ejercicio 3.21 El 80% de la probabilidad de una \(\Gamma(3,4)\) está entre los valores qgamma(c(0, 0.8), 3, 4). Y también entre qgamma(c(0.1, 0.9), 3, 4). Usa optimize para encontrar el intervalo más estrecho. ¿Qué utilidad piensas que puede tener este intervalo que lo hace preferible al resto?
Ejercicio 3.22 Representa gráficamente varios intervalos de los que comprenden el 80% de la probabilidad de una \(\Gamma(3,4)\). ¿Qué propiedad característica tiene el más corto comparado con el resto?

Ejercicio 3.23 En \(t=1\) quedan por enterarse de la noticia (en el ejemplo del texto) \(1 - F(1)\) (en proporción) de la población. En \(t=1.1\) se han enterado (en proporción) \(F(1.1) - F(1)\) de la población. Por lo tanto, en ese intervalo se han enterado de la noticia una proporción (o tasa)

\[\frac{F(1.1) - F(1)}{1 - F(1)}\]

de los que aún no se habían enterado. Considera la función

\[g(t) = \frac{F(t + 0.1) - F(t)}{1 - F(t)}\]

y represéntala gráficamente. ¿Qué aspecto tiene? ¿Cada vez es más fácil o más difícil enterarse?

Nota: esta función es una versión de la llamada función de riesgo (hazard) en el análisis de la supervivencia.
Ejercicio 3.24 Repite el ejercicio anterior pero considerando una distribución exponencial de parámetro 4 (puedes usar \(\Gamma(1, 4)\) o, mejor, la distribución exponencial \(\text{Exp}(4)\)).
Ejercicio 3.25 El número de visitas a una página es, en promedio, de 240k al día. Podemos suponer que el número de visitas se distribuye según una distribución de Poisson. Los ingenieros quieren dimensionar la página para que solo se caiga en situaciones extremas, el 0.1% de los días. ¿Para cuántas visitas diarias deberían dimensionar el servidor?
Ejercicio 3.26 Resuelve el ejercicio anterior mediante simulaciones: genera muchas muestras de la distribución de Poisson correspondiente y calcula el valor que deja a su derecha derecha solo el 0.1% de ellas (i.e., si la muestra son \(x_i\), el valor buscado es \(a\) tal que la proporción de los \(x_i > a\) es el 0.1%).

Ejercicio 3.27 Las visitas no tienen la misma intensidad a lo largo del día. La intensidad varía horariamente de acuerdo con una distribución exponencial \(\text{Exp}(\lambda)\). Si en una hora el valor de \(\lambda\) es \(\lambda_0\), entonces el número de visitas en esa hora tiene distribución de Poisson con parámetro \(\lambda_0\).

Encuentra el valor de \(\lambda\) tal que la intensidad promedio diaria da 240k visitas. Después, calcula (mediante simulaciones) el valor extremo de interés, el que da una garantía de servicio del 99.9% (de las horas). Compáralo con el obtenido antes.
Ejercicio 3.28 Calcula la media de una distribución normal estándar mediante simulaciones. Haz muchas simulaciones con 100, 500, 1000 y 10000 muestras y compara su dispersión.
Ejercicio 3.29 Haz lo mismo que antes, pero para la varianza.
Ejercicio 3.30 Repite el ejercicio de la estimación de la media con la distribución de Cauchy. Muestra su distribución obteniendo muchas estimaciones con 100, 500, 1000 y 10000 muestras y compara su dispersión.

3.3 Distribuciones de probabilidad multivariantes

En esta sección vamos a volver a considerar la distribución conjunta de dos o más variables aleatorias para retomar y trasladar al caso continuo los conceptos que se trataron en el capítulo anterior, incluyendo la correspondiente versión continua del teorema de Bayes. Terminaremos presentando los muy problemáticos conceptos de la covarianza y la correlación.

3.3.1 Función de densidad conjunta, marginal y condicional

En esta sección de extienden los conceptos de probabilidad conjunta, marginal y condicional presentados en el capítulo anterior usando variables aleatorias discretas al caso de variables aleatorias continuas.

Si \(X_1, \dots, X_n\) son variables aleatorias continuas, con un razonamiento similar al empleado más arriba para variables aleatorias continuas unidimensionales basado en la repetición de eventos y la construcción de los correspondientes histogramas —generalizados ahora a varias dimensiones—, podemos plantear su función de densidad conjunta,

\[f(x_1, \dots, x_n)\]

que tiene, obviamente, masa (o integral) 1. Análogamente, se puede pensar en la correspondiente función de probabilidad,

\[F(a_1, \dots, a_n) = P(X_1 \le a_1, \dots, X_n < a_n) = \\ \int_{-\infty}^{a_1} \dots \int_{-\infty}^{a_n} f(x_1, \dots, x_n) dx_1\dots dx_n,\]

que, dicho sea, tiene una importancia (y uso) sustancialmente menor en el caso multidimensional que en el unidimensional.

Las distribuciones marginales son las correspondientes a las variables aleatorias individuales. Se obtienen por integración, que es la operación que extiende al caso continuo la suma que realizábamos en el capítulo anterior en el discreto. En concreto, para dos variables aleatorias \(X_1\) y \(X_2\), se puede obtener la distribución marginal de la variable aleatoria \(X_1\) integrando así:

\[ f(x_1) = \int_{-\infty}^\infty f(x_1, x_2) dx_2.\]

El siguiente gráfico muestra la distribución bidimensional de los ingresos con respecto construida a partir de dato procedentes del censo estadounidense de 2016. La distribución bidimensional está representada por las curvas de nivel y las correspondientes distribuciones marginales por medio de histogramas.

Los histogramas proporcionan información acerca de la edad de los integrantes de la muestra y de sus ingresos y nos permiten sospechar que los mayores de 50 años han sido agregados al tramo superior, pero no aportan información sobre si los ingresos son homogéneos para las distintas edades o no. Obviamente, para construir los histogramas, en la práctica, no hace falta resolver ninguna integral: basta con construirlos a partir de las columnas que contienen la información de las edades o los ingresos independientemente.

El efecto de la edad sobre los ingresos se puede estudiar a través de la distribución conjunta, pero también a través de las distribuciones condicionales que para el conjunto de datos anterior y para una selección de edades tiene el siguiente aspecto:

Las distribuciones marginales representan la distribución de los ingresos para sujetos de una edad determinada y se obtienen seccionando la distribución conjunta a diversos niveles y normalizando para que su integral siga siendo 1. Si \(X\) e \(Y\) representasen la edad y los ingresos respectivamente, entonces la función de densidad condicional correspondiente se representa de la forma \(f(y \; | \; x)\) y, por ejemplo, la correspondiente a la distribución de la renta de los sujetos de 33 años, como \(f(y \; | \; X = 33)\).

En concreto, la distribución marginal es el cociente

\[f(y \; | \; x) = \frac{f(x,y)}{f(x)}\]

entre una sección de la función de densidad conjunta —nótese que \(x\) es fijo— y el factor necesario para que su integral (con respecto a \(y\) en este caso) sea 1.

Ejercicio 3.31 Demuestra la afirmación anterior.

En cierto sentido, las distribuciones marginales pueden interpretarse como promedios globales (en esta empresa, la tasa de abandono es del 5%), mientras que las distribuciones condicionales, estimaciones individualizadas (en esta empresa, la tasa de abandono de los clientes con tales características es del 1.2%). En cierta manera, el trabajo del científico de datos consiste en ir más allá de los resultados globales o, como mucho, marginalizados del business intelligence para construir modelos específicos, condicionados a las características de sus sujetos.

Ejercicio 3.32 Trata de probar la versión continua del teorema de la probabilidad total, es decir, que \(f(y) = \int_-\infty^\infty f(y \; | \; x) f(x) dx\). Revisa también la interpretación y justificación que se le dio a este resultado en el capítulo anterior, que aplica también en este.

3.3.2 Independencia

Las siguientes dos gráficas corresponden a dos distribuciones bivariadas de probabilidad. En la primera, conocer \(X\) nos dice mucho sobre \(Y\): valores bajos de la una correspondían a valores bajos de la otra, etc.; sin embargo, en la segunda, ocurre lo contrario: conocer \(X\) no nos dice nada en absoluto acerca de la distribución de \(Y\).

Merece la pena en este punto mencionar las cópulas: distribuciones construidas de forma que tengan unas distribuciones marginales dadas y además de una determinada correlación entre las variables. Las cópulas encuentran aplicaciones en finanzas y otros ámbitos muy concretos de la ciencia de datos y no nos ocuparemos de ellas.

Eso se manifiesta muy especialmente en las funciones de densidad correspondientes:

En particular, las funciones de densidad condicionales correspondientes a la distribución de la izquierda tienen una deriva obvia mientras que las correspondientes a la de la derecha son aproximadamente iguales. Esto sucede, de nuevo, porque conocer X no aporta nada al conocimiento de Y.

Así, en efecto, existe independencia cuando

\[f(y \; | \; x) = \frac{f(x,y)}{f(x)} = f(y)\]

Lo cual tiene como consecuencia directa que

\[f(x,y) = f(x)f(y)\]

y, en general, si las variables aleatorias \(X_1, \dots, X_n\) son independientes entre sí, entonces su función de densidad conjunta puede factorizarse de la siguiente forma:

\[f(x_1, \dots, x_n) = \prod_i f(x_i).\]

3.3.3 Teorema de Bayes

Toca reiterar que la independencia, aunque importante, es una relación poco interesante entre variables aleatorias. El objetivo de la ciencia de datos es extraer información acerca de una variable aleatoria desconocida \(Y\) en función de otras conocidas \(X_i\) y eso es imposible si \(Y \perp X_i\).

Vamos a ilustrar cómo explotar relaciones de dependencia simples a través de un ejemplo. Se trata de un juego en el que alguien elige al azar un valor \(\theta \in [0,1]\) y luego tira al aire cinco veces una moneda con \(P(H) = \theta\). Si nos comunican el número de caras, ¿qué podemos decir acerca de \(\theta\)? De alguna manera, la información adicional, aunque indirecta, debería influir en nuestra idea acerca del valor (recuérdese: desconocido) de \(\theta\). Este parece un ejercicio ocioso pero es la base de muchos problemas reales: un sujeto puede tener una propensión \(\theta\) desconocida a realizar cierto tipo de acciones (de resultado binario) e interesa estimar \(\theta\).

Desde el punto de vista de lo tratado en este capítulo, nos enfrentamos a una distribución de probabilidad bivariante de parejas \((\theta, n)\) y sabemos que:

  • La probabilidad marginal de \(\theta\) es uniforme en \([0, 1]\).
  • La distribución del número de caras para un valor dado de \(\theta\) (es decir, condicionado a \(\theta\)) es binomial con parámetros \(5\) y \(\theta\). Es decir, matemáticamente, tenemos una variable aleatoria \(N\) con distribución condicional

\[N | \theta \sim \text{Binom}(5, \theta).\]

Conocemos pues \(P(N=n | \theta)\), pero queremos conocer \(P(\theta | N = n)\), es decir, la distribución de \(\theta\) sabido que \(N = n\). Podemos escribir

\[P(\theta \; | \; N = n) = \frac{P(N = n, \theta)}{P(N = n)} = \frac{P(N = n \; | \; \theta) P(\theta)}{P(N = n)}\]

para obtener de nuevo la expresión conocida como teorema de Bayes. En ella podemos sustituir \(P(\theta)\) por 1 (y por 0 fuera del intervalo \([0,1]\)) dado que \(\theta\) es uniforme en \([0,1]\). También \(P(N = n | \theta)\) por \(\binom{5}{n} \theta^n (1-\theta)^{5-n}\). Finalmente, \(P(N=n)\) nos da un poco igual porque no depende de \(\theta\), así que podemos reemplazarlo por una cosntante de la que nos ocuparemos después.

Con esas sustituciones,

\[P(\theta | N = n) = \begin{cases} C \binom{5}{n} \theta^n (1-\theta)^{5-n} = C \theta^n (1-\theta)^{5-n} & \text{si} \; \theta \in [0,1]\\ 0 & \text{en otro caso} \end{cases}\]

expresión donde todos los términos que no dependen de \(\theta\) se han absorbido, tal vez con un abuso de la notación, en la constante \(C\). Dado que la expresión obtenida es una función de densidad (de \(\theta \; | \; N = n\)), \(C\) tiene que ser tal que

\[C \int_0^1 \theta^n (1-\theta)^{5-n} d\theta = 1\]

Se puede calcular \(C\) (aunque luego veremos que, realmente, no hace falta) y representar las 6 posibles distribuciones de densidad asociadas a \(\theta\) según del valor de \(N\):

En la gráfica se ha marcado en rojo la función de densidad correspondiente al caso \(N = 3\), que se concentra alrededor del valor \(3/5\). Por su forma, daremos más credibilidad a los valores próximos a \(3/5\) de \(\theta\) que a los más alejados de él.

No hace falta calcular el valor de \(C\) en la expresión anterior si se reconoce la distribución de \(P(\theta | N = n)\). Por la forma de la función de densidad, se trata de una distribución beta (de parámetros \(n+1\) y \(6 -n\)).

Esto no es casualidad: es un hecho conocido que la distribución beta es una distribución conjugada de la binomial. Eso significa que siempre que la información a priori sobre el parámetro tenga distribución beta (y la distribución uniforme es un caso especial de la beta) y nuestras observaciones sigan una distribución binomial, la distribución resultante (conocida como distribución a posteriori) será también beta. Existen otras parejas de distribuciones conjugadas que puede ser útil conocer.

En el ejemplo anterior hemos llegado a la expresión

\[P(\theta \; | \; N = n) = \frac{P(N = n \; | \; \theta) P(\theta)}{P(N = n)}\]

que es la versión del teorema de Bayes para el caso particular tratado más arriba. En general,

\[f(y \; | \; x) = \frac{f(x \; | \; y) f(y)}{f(x))}\]

y como \(f(x)\) no depende de \(y\), se suele usar la notación

\[f(y \; | \; x) \propto f(x \; | \; y) f(y),\]

que es la versión general del teorema de Bayes que nos permite invertir las probabilidades condicionales.

3.3.4 Covarianza y correlación

La relación entre dos variables aleatorias (continuas en este caso) puede medirse a través de su covarianza:

\[\sigma(X,Y) = \int (x - E(X)) (y - E(Y)) f(x,y) \, dx dy,\]

expresión que puede aproximarse por

\[\sigma(X,Y) \sim \frac{1}{N} \sum_N (x_i - \bar{X}) (y_i - \bar{Y})\]

cuando \((x_i, y_i)\) es una muestra de la distribución bivariada \((X, Y)\) y \(\bar{X}\) y \(\bar{Y}\) son las correspondientes medias muestrales.

Si \(X\) es \(Y\) son independientes, entonces \(\text{cov(X,Y)} = 0\).

Ejercicio 3.33 Demuestra la afirmación anterior.

La relación inversa es falsa. Solo se cumple en algunos casos concretos, como cuando las variables aleatorias involucradas son normales. Pero en general, vale la pena repetirlo, no es cierta: no es difícil construir parejas de variables aleatorias con correlación nula pero con obvias relaciones de dependencia entre ellas ((Correlation and dependence 2020)).

En general, si \(X\) e \(Y\) tienden a tomar valores altos o bajos a la vez, su covarianza será positiva. Si valores altos de \(X\) tienden a corresponder con valores bajos de \(Y\) (y a la inversa), la covarianza será negativa.

Por definición, además, \(\sigma(X,X) = \sigma^2(X)\).

La covarianza está afectada por el valor relativo de las variables \(X\) e \(Y\) y puede tomar valores arbitrariamente altos (o bajos). Por eso, como medida de la relación entre dos variables es preferible el coeficiente de correlación, que se define así:

\[\rho(X,Y) = \frac{\sigma(X,Y)}{\sigma(X)\sigma(Y)}\]

El coeficiente de correlación toma valores entre \(-1\) y \(1\). Solo es \(1\) (\(-1\)) cuando \(X = a Y + b\) y \(a > 0\) (\(a < 0\)), es decir, cuando las variables son transformaciones lineales la una de la otra. En esos casos degenerados, conocer una de ellas da información completa sobre la otra: se trata, en el fondo, de la misma variable. Se puede decir también, aunque no sea exactamente cierto (véase el comentario anterior sobre variables aleatorias con correlación nula y, no obstante, dependientes) que cuanta más alta (en valor absoluto) es la correlación, más información proporciona conocer una de ellas sobre la otra. Por eso, en ocasiones, se utiliza el coeficiente de correlación para seleccionar variables predictoras para modelos, aunque no sea esta la técnica recomendada.

3.4 Bibliografía razonada

3.5 Ejercicios

Ejercicio 3.34 Crea un programa en R para simular \(n\) tiradas de monedas extraídas de una bolsa en la que hay 100 de ellas cuyos valores \(p\) se distribuyen uniformemente. Compara la distribución del número de caras obtenidas en varias rachas de \(n\) tiradas con las que se obtendrían si \(p\) fuese constante. Antes de mirar los resultados, trata de anticipar la respuesta: ¿en qué caso es mayor la variabilidad?

Referencias

Correlation and dependence. 2020. “Correlation and Dependence — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Correlation_and_dependence.

Desrosières, A. 2004. La Política de Los Grandes Números. Editorial Melusina.

Distribución gamma. 2021. “Distribución Gamma — Wikipedia, the Free Encyclopedia.” https://es.wikipedia.org/wiki/Distribuci%C3%B3n_gamma.

Línea de pobreza. 2021. “Línea de Pobreza — Wikipedia, the Free Encyclopedia.” https://es.wikipedia.org/wiki/L%C3%ADnea_de_pobreza.

Sex ratio. 2020. “Sex Ratio — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Sex_ratio.


  1. Esta afirmación merece la siguiente cualificación: se verá cómo la media y la desviación estándar determinan unívocamente una distribución normal. Así que en tanto que se trabaje con variables aleatorias normales, la desviación estándar comprende todo lo que es necesario saber acerca de la dispersión de los datos.

  2. Es la que se usa implícitamente en el LDA, Latent Dirichlet Analysis, una técnica que se usa para identificar y modelar los asuntos de los que tratan determinados conjuntos de textos, entre otras aplicaciones relacionadas.