Capítulo 4 Variables aleatorias numéricas
TODO: intro
Sobre todo, variables aleatorias discretas.
Justificar cómo ha habido que retrasar material trivial hasta poder establecerlo fehacientemente.
El objetivo de esta sección es buscar regularidad en el azar. Poner ejemplos:
- Tiradas de monedas.
- dispersión de las alturas de la gente
- ¿algún ejemplo de varianza constante? Con alguna Poisson?
Estas características nos permiten caracterizar el azar.
¿Que estoy usando una aproximación frecuentista? Por lo de las muestras, etc.
4.1 La media y la varianza
Importantes, pero son como los andamios de una casa: aprenderemos a retirarlos.
4.1.1 La media
Supóngase que \(X\) es una variable aleatoria discreta que toma los valores \(x_1, \dots, x_n\) con probabilidades \(P(X = x_i) = p_i\). Entonces, la expresión
\[E[X] = \sum_i x_i p_i,\]
es lo que hoy llamamos la media o la esperanza de \(X\) pero que históricamente ha sido conocida con multitud de otros nombres pintorescos y descriptivos, como el centro de gravedad, el valor más probable, etc.
Ejercicio 4.1 Justificar que el nombre valor más probable es, en general, impropio. ¿Existe, no obstante, algún tipo de distribución para el que resulte adecuado?
Si \(X\) es una variable aleatoria y \(f\) es una función e \(Y\) es la variable aleatoria \(Y = f(X)\), entonces
\[E[Y] = \sum_i y_i P(Y = y_i) = \sum_i y_i P(\{x_j | f(x_j) = y_i \}) = \sum_j f(x_j) P(X = x_j),\]
resultado que en algunos lugares se conoce con el pintoresco nombre de la ley del estadítico inconsciente (???). En concreto, de ella se deduce que \(E[\lambda X] = \lambda E[X]\) para cualquier número \(\lambda\).
La media es un operador lineal porque, además, \(E[X + Y] = E[X] + E[Y]\). Intuitivamente, si la fábrica \(A\) fabrica, en promedio, 100 unidades y la \(B\) 120, en promedio, conjuntamente, deberían fabricar 220. No obstante, es ilustrativo proporcionar una demostración matemática:
\[E[X+Y] = \sum_{ij} (x_i + y_j) P(X=x_i, Y = y_j) = \\ \sum_{ij} x_i P(X=x_i, Y = y_j) + \sum_{ij} y_j P(X=x_i, Y = y_j) = \\ \sum_i x_i P(X=x_i) + \sum_j y_j P(Y = y_j) = E(X) + E(Y)\]
En la expresión anterior se ha usado la marginalización de la distribución conjunta \(P(X=x_i, Y = y_j)\). En efecto,
\[\sum_{ij} x_i P(X=x_i, Y = y_j) = \sum_i x_i \sum_j P(X=x_i, Y = y_j) = \sum_i x_i P(X=x_i).\]
En resumen, la media es una característica de una variable alteatoria que da cierta idea de su valor central y que tiene propiedades matemáticas muy prácticas. Lo segundo, como se verá, ha hecho que se abuse de su utilización para lo primero. Más adelante se explorarán otras alternativas.
4.1.2 La varianza
Una manera de resumir sucintamente una variable aleatoria consiste en proporcionar un valor central —por ejemplo, su valor medio— y una medida de la dispersión de sus valores alrededor de dicho valor: ¿están todos próximos a él? ¿o existe una gran dispersión?
La varianza es una medida de dicha dispersión. La varianza de una variable aleatoria \(X\) con media \(\mu\) es, de hecho,
\[\text{Var}(X) = E[(X - \mu)^2] = \sum_i (x_i - \mu)^2 p_i,\]
es decir, el valor promedio de las distancias entre cada valor posible y la media. Con una elección muy particular, además, de la distancia, el cuadrado de la diferencia \(x_i - \mu\). Más adelante se estudiará la conveniencia de reemplazar esta distancia por otras medidas —¿por qué no \(|x_i - \mu|\) o, más en general \(|x_i - \mu|^p\) para algún \(p > 0\)?— y sus consecuencias.
La varianza restringe de alguna manera la distancia a la que los valores de la variable aleatoria se pueden alejar de la media: una varianza pequeña obliga a que estén concentrados cerca de ella, etc. La desigualdad de Chebichev,
\[P(|X - \mu| > a) \le \frac{\text{Var}(X)}{a^2}\]
hace explícita esa relación: la probabilidad de los puntos alejados de la media no puede ser muy grande y está acotada por la varianza.
Chebichev demostró su desigualdad en 1867 (???) y la demostración es simple e instructiva: si \(X\) asume los valores \(x_1, \dots, x_n\) y \(x_1, \dots, x_m\) son los \(m\) valores de \(X\) tales que \(|x_i - \mu| \gt a\), entonces
\[P(|x_i - \mu| \gt a) = \sum_1^m p_i \le \sum_1^m \frac{(x_i - \mu)^2}{a^2}p_i \le \frac{1}{a^2} \sum_i^n (x_i - \mu)^2 p_i = \frac{\text{Var}(X)}{a^2}\]
Ejercicio 4.2 En realidad, no hay nada específico de la distancia cuadrática en la demostración anterior. Modifícala para alternativas de la varianza basadas en, por ejemplo, una distancia genérica \(|x_i - \mu|^p\) para algún \(p > 0\).
Ejercicio 4.3 Si \(X\) es una variable aleatoria con varianza \(\sigma^2\), ¿cuál es la varianza de \(\lambda X\)?¿Y la de \(X - \lambda\)?
La elección de la distancia cuadrática en la definición de la varianza, sin embargo, dota a la varianza de una serie de propiedades matemáticas muy deseables. La más importante de ellas es la siguiente: la varianza de la suma de dos variables alteatorias independientes es la suma de sus varianzas. En efecto, —y suponiendo, gracias al ejercicio anterior y por simplificar, que las variales aleatorias \(X\) e \(Y\) tienen media cero—
\[\text{Var}(X + Y) = E[(X + Y)^2] = E[X^2] + E[Y^2] + 2 E[XY] = \\ = \text{Var}(X) + \text{Var}(Y) + 2 E[XY],\]
y basta con demostrar que \(E[XY] = 0\) si \(X\) e \(Y\) son independientes.
Ejercicio 4.4 Demuestra el resultado anterior.
La expresión \(E[XY]\) (y en general, sin suponer que las medias son nulas, \(E[(X - E[X]) (Y - E[Y])]\)) es la llamada covarianza entre \(X\) e \(Y\). Dependiendo de si su covarianza es positiva o negativa, la varianza de la suma de variables aleatorias estará por encima o por debajo de la suma de sus varianzas.
Ejercicio 4.5 Una inversión de 100 euros en el activo financiero \(X\) tiene una varianza (p.e., mensual) de 10; y una inversión de 100 euros en \(Y\) tiene una varianza de 20. ¿Cuál es la varianza de una una inversión de 50 euros en \(X\) y 50 euros en \(Y\) si \(X\) e \(Y\) son independientes?
Uno de los objetivos de las finanzas es construir carteras de bajo riesgo. Una cartera, abstractamente, es una suma ponderada de variables aleatorias: las variables aleatorias son los activos que la componen, las ponderaciones, las inversiones realizadas en cada uno de los activos. Para reducir en la medida de lo posible la varianza de esta suma, es conveniente que la cartera esté integrada por activos con covarianzas bajas, idealmente cero o negativas.
4.3 La media y la ley de los grandes números
Esta sección trata de la misteriosa relación entre dos magnitudes relacionadas con las variables alteatorias que, en principio, no parecería que debieran tenerla.
La otra es el resultado de simular. Si de \(X\) se realizan muchos experimentos y se obtienen muestras independientes \(v_1, \dots, v_m\), entonces el valor
\[\frac{1}{m} \sum_i v_i\]
estará próximo a \(E[X]\) y tenderá a acercarse a él conforme crezca el tamaño de la muestra \(m\).
Este resultado poco menos que empírico vino a conocerse como la ley de los grandes números.
Este hecho, al que hoy en día puede que nos hayamos acostumbrado, fue considerado muy paradójico en su día. La intuición imperante siglos atrás es que al analizar, tabular y promediar fenómenos aleatorios, se iban a encontrar igualmente agregados aleatorios. Así, en (Desrosières 2004), se lee:
La aplicación de la ley de los grandes números a la estabilidad de las medias calculadas (por ejemplo, la de las tasas de natalidad, matrimonio, crímenes o suicidios) impresiona a los contemporáneos de Quetelet y constituye el ensamblado de una macrosociología para la cual lo “social” tiene una realidad exterior y superior a los individuos: es la idea central de El suicidio de Durnkheim […].
TODO: hablar de por qué es una ley y en qué se diferencia de un teorema, que es como lo llamaríamos actualmente.
La condición de independencia, como se verá más adelante, cuando se pruebe la ley de los grandes números, es fundamental. De hecho, es fácil pensar cómo construir muestras manipuladas para evitar que se cumpla la ley de los grandes números.
De hecho, el muestreo, como subrama de la estadística, estudia procediientos para obtener muestras tales que se siga cumpliendo la ley de los grandes números aun cuando (o más bien, precisamente cuando) es muy difícil obtener muestras independientes de la población de interés.
4.4 La media y otras medidas de centralidad
La media de una variable aleatoria es precisamente ese valor al que se parecen los promedios de realizaciones suyas. Como regla general, para estimarla, se pueden hacer simulaciones. Por ejemplo, para una variable aleatoria de Bernoulli, se puede proceder de la siguiente forma para promediar un millón de realizaciones:
0.7
p <-mean(rbinom(1e6, 1, p))
## [1] 0.700508
TODO: simular el ejercicio de las 26k tiradas de dados…
0.7
p <-mean(rbinom(1e6, 1, p))
## [1] 0.699013
Ejercicio 4.6 El que los promedios de muchas simulaciones de \(X\) sean parecidos es consecuencia, como se ha dicho arriba, de la llamada ley de los grandes números. Este resultado de la teoría de la probabilidad nos indica los casos en que las medias convergen y también los casos —bastante artificiales— en los que no. Comprueba mediante simulaciones que los promedios de simulaciones de variables aleatorias de Bernoulli convergen y vuelve a repetir el ejercicio más adelante, cuando se llegue a la distribución de Cauchy, para comprobar que en ese caso ocurre algo extraño.
Una variable aleatoria es un objeto extraño en el sentido de que puede tomar distintos valores de una manera impredecible: piénsese en un dado. La teoría de la probabilidad, sin embargo, es capaz de identificar (y estudiar) regularidades dentro de ese azar. Por ejemplo, si varias personas realizan —esta realización puede ser efectiva (p.e., tirando una moneda o, más en general, realizando un experimento) o simulada (p.e., usando un ordenador)— una variable aleatoria numérica \(X\) muchas veces y promedian los valores resultantes, obtendrán una lista de números muy parecidos.
Cuando una variable alatoria discreta \(X\) que toma valores \(a_i\) con probabilidad \(p_i\) —en el caso de las variables de Bernoulli, los valores posibles son 0 y 1 y sus correspondientes probabilidades, \(1-p\) y \(p\)—, al promediar \(N\) simulaciones \(x_i\) se obtiene el valor
\[\frac{1}{N} \sum_i x_i = \sum_j a_j \frac{n_j}{N}\]
donde \(n_j\) es el número de los valores \(x_i\) iguales a \(a_j\). La expresión \(n_j / N\) converge, por la ley de los grandes números, a \(p_j\) y, por tanto, el límite
\[E(X) = \mu(X) = \bar{X} = \sum_j a_j p_j,\]
que es como se define tradicionalmente la media de la variable aleatoria \(X\).
La expresión anterior aplicada a una variable aleatoria de Bernoulli \(X \sim \text{Bernoulli}(p)\) queda en
\[E(X) = 0 \times (1-p) + 1 \times p = p.\]
- Hablar de la media de f(X): teorema de…
4.5 La varianza y otras medidas de la dispersión
La gráfica de la sección anterior muestra cómo se distribuye la probabilidad de la distribución binomial: se trata de una especie de campana más o menos simétrica situada sobre cierto punto central característico y de una anchura determinada. Patrones similares se observan también en otras distribuciones de probabilidad habituales (aunque no siempre) y ese es el motivo fundamental para estudiar los indicadores de centralidad y dispersión: nos ayudan a describir este tipo de distribuciones.
Ejercicio 4.7 ¿Es simétrica la distribución binomial? Construye algún ejemplo en el que se manifieste claramente la asimetría.
Al decir este tipo de distribuciones se pretende subrayar que esos indicadores son problemáticos a la hora de estudiar otro tipo de distribuciones que no presenten esas características.
La media admite entonces una interpretación como una medida de centralidad: es un valor alrededor del cual podría decirse que pivota la distribución. De hecho, para la distribución binomial es precisamente el valor central. Sin embargo, no es necesariamente un valor típico: pudiera ser, incluso, un valor imposible para la distribución. Eso ocurre precisamente con la distribución de Bernoulli: su media es \(p\), un valor típicamente estrictamente comprendido entre 0 y 1, mientras la variable solo puede tomar los valores 0 o 1.
Una manera alternativas de entender la centralidad es la de interpretarla como el valor que está estrictamente en la mitad. Es decir, aquel que tiene el 50% de las observaciones por encima y el 50% de ellas por debajo, la mediana. Y si por centralidad, abusando del lenguaje, se entiende un valor típico, otra medida alternativa que se usa (menos frecuentemente) es el de la moda, el valor más frecuente.
N. Taleb, en sus libros, distingue dos mundos que operan de manera totalmente distinta: normalistán y extremistán. Normalistán son los taxistas: es improbable que el mejor taxista más eficiente de Madrid gane el doble que el peor. En normalistán tiene sentido hablar de la media: la media de la facturación diarias de los taxistas es bastante representativa de la facturación de cualquiera de ellos. Sin embargo, el mundo de los músicos es extremistán: los hay que ganan millones y los que prácticamente subvencionan su actividad sirviendo cafés. En extremistán la media no es informativa, no significa prácticamente nada pero la mediana todavía es interpretable.
El concepto que complementa al de la centralidad a la hora de describir la forma de una variable aleatoria como las binomiales es de lde la dispersión: la medida en que los valores de la distribución están cerca o lejos de su punto medio (calculado por el procedimiento que sea).
La varianza es un indicador tradicionalmente usado para cuantificar la dispersión. Tanto que en ocasiones ambos términos se utilizan como sinónimos. La varianza se define así:
\[\sigma^2(X) = \text{Var}(X) = \sum_i (x_i - E(X))^2 P(X = x_i)\]
Se trata, pues, de \(E[(X - E(X))^2]\), el promedio de las distancias al cuadrado de cada punto con la media. Lo cual significa que la varianza será pequeña solo cuando los puntos alejados de la media tengan una probabilidad baja. O dicho de otro modo, que casi toda la probabilidad se acumule alrededor de la media.
El hecho de usar el promedio de las distancias al cuadrado puede ser problemático en algunas ocasiones: por ejemplo, cuando un punto está excesivamente alejado de la media, la varianza puede ser muy alta incluso cuando el resto de los valores no muestran gran dispersión. Por eso, a veces, en lugar de la varianza se usa la medida alternativa de la dispersión \(E(|X - E(X)|)\).
Si \(X\) e \(Y\) son independientes, entonces
\[\sigma^2(X+Y) = \sigma^2(X) + \sigma^2(Y).\]
Pero, en general, lo anterior no es cierto. Por ejemplo, en el caso de dependencia más extrema, cuando \(Y = X\),
\[\sigma^2(X+X) = \sigma^2(2X) = 4 \sigma^2(X)\]
No obstante, como aplicación de lo anterior, si \(X \sim \text{Binom}(n, p)\), entonces \(\sigma^2(X) = n p (1-p)\) porque \(\sigma^2(Y) = p(1-p)\) si \(Y \sim \text{Bernoulli}(p)\).
Ejercicio 4.8 Demuestra que si \(X \sim \text{Bernoulli}(p)\), entonces \(\sigma^2(X) = p(1-p)\).
La desviación estándar de \(X\), \(\sigma(X)\), es la raíz cuadrada de la varianza de \(X\). Tiene como ventaja de estar expresada en las mismas unidades (y escala) que \(X\). En algunos casos en los que \(X > 0\), tiene sentido hablar del coeficiente de variación, \(\frac{\sigma(X)}{E(X)}\), que compara la media con la desviación alrededor de la media. Por ejemplo, si \(X\) mide la longitud de los tornillos que produce una máquina, su coeficiente de variación muestra el tamaño relativo de la imprecisión del proceso de fabricación.
Hay que tener en cuenta que tanto la varianza y la desviación estándar como otras medidas numéricas de la dispersión de una variable aleatoria son solo sucedáneos de bajo ancho de banda de la gráfica de la función de probabilidad. Eso quiere decir que de interesarnos comunicar a terceros el grado de dispersión de una variable aleatoria, la primera opción sería hacerles llegar la representación gráfica de la función de probabilidad ; la segunda, tal vez alguna variante suya, como los gráficos de cajas; la tercera, resúmenes como los cinco números de Tukey u otros derivados de ciertos cuantiles esenciales y solo en último lugar, una medida basada en un único número como la varianza o la desviación estándar2.
4.10 Ejercicios
Ejercicio 4.9 Supóngase una inversión de 100 euros los activos financieros \(X\) e \(Y\) tiene varianzas (p.e., mensuales) \(\sigma_X^2\) y \(\sigma_Y^2\). Si \(X\) e \(Y\) son independientes, ¿cuál es la proporción de 100 euros que hay que invertir en \(X\) para miniminzar la varianza de la cartera conjunta?
Ejercicio 4.10 TBA
Referencias
Desrosières, A. 2004. La Política de Los Grandes Números. Editorial Melusina.
Esta afirmación merece la siguiente cualificación: se verá cómo la media y la desviación estándar determinan unívocamente una distribución normal. Así que en tanto que se trabaje con variables aleatorias normales, la desviación estándar comprende todo lo que es necesario saber acerca de la dispersión de los datos.↩︎