Después de haber estado un tiempo —hasta tener que interrumpirlo para convertirme en un elemento socialmente productivo— leyendo sobre cómo la teoría de la probabilidad extiende la lógica (Jaynes, Hacking y compañía), he incurrido en Probability theory does not extend logic. Se trata de un ensayito recomendable pero sobre el que advierto a sus posibles lectores que decae rápidamente de mucho al fango.
De él extraigo una interpretación muy heterodoxa de la probabilidad condicional expresada en términos de la lógica de predicados.
Llegaré a la normal. Antes, algo sobre la entropía.
Nos interesa saber y medir el grado de concentración de una distribución. Por ejemplo, si X es una variable aleatoria con función de densidad $latex f(x)$ y $latex x_1, \dots, x_n$ es una muestra de X, entonces, la expresión
$$ \frac{1}{n} \sum_i f(x_i)$$
da una idea de la concentración vs dispersión de X:
Si es grande, muchos de los $latex x_i$ procederán de lugares donde $latex f$ es grande; en un caso discreto, que tal vez ayude a mejorar la intuición sobre la cosa, habría muchos valores repetidos.
En mi entrada anterior mencioné cómo la suma de cuadrados de normales, aun cuando tengan varianzas desiguales, sigue siendo aproximadamente $latex \chi^2$. Es el resultado que subyace, por ejemplo, a la aproximación de Welch que usa R por defecto en t.test. Puede verse una discusión teórica sobre el asunto así como enlaces a la literatura relevante aquí.
Esta entrada es un complemento a la anterior que tiene lo que a la otra le faltan: gráficos.
I.
Si $X_1, \dots, X_{12}$ son uniformes en [0,1] e independientes, entonces $latex X_1 + \dots + X_{12} - 6$ es una variable aleatoria normal.
Puede entenderse como un corolario práctico del teorema central del límite habida cuenta de que la varianza de $latex X_i$ es 1/12 y su media es 1/2.
Es útil porque, se ve, en algunos dispositivos embebidos no se dispone de una librería matemática extensa y, se ve, a veces hace falta muestrear la normal.
El otro día alguien argumentaba (de una manera que no voy a adjetivar):
La lógica (proposiciona, de primer orden) es importante (si lo que se pretende es actuar racionalment), la probabilidad no tanto. El teorema de Bayes es solo un resultado trivial dentro de una disciplina mucho menos relevante que la lógica. Ergo, ¿por qué tanto coñacito con el dichoso teorema de Bayes? Como había alguien equivocado en internet, sonaron todas las alarmas que tengo colocadas en casa y tuve que acudir a enderezar el tuerto.
[Y no, no me refiero (hoy) a los seguidores del Keynes de la “Teoría general del empleo, el interés y el dinero” sino a los de su “Tratado sobre probabilidades”. Misma persona, distinto libro, distinta disciplina. Y excúseme el “clickbait”: no podía no hacerlo.]
Keynes escribió en 1921 su Tratado de probabilidades, según la Wikipedia, una contribución a las bases matemáticas y filosóficas de la teoría de la probabilidad. Le falta añadir descabellada (aunque, como se verá después, tiene su punto), superada y felizmente olvidada.
[Esta entrada es casi una caracterización de lo que promete el título. Quitarle el casi sería prolijo. Pero creo que casi, casi, se adivina de lo que sigue.]
Siempre que hablamos de distribuciones de probabilidad, somos muy conscientes de los requisitos y condiciones bajo las que aplican. Con una excepción: al hablar del manido Benford. En tales casos se suele argumentar de una manera un tanto mística. Y doblemente mística, como consecuencia, cuando toca explicar por qué en ciertos datos concretos no aplica.
En los minutos 18 y unos pocos de los siguientes de
se plantea el problema de cómo asignar probabilidades a eventos y el conferenciante, Martin Hairer, discute (¿con ánimo de exhaustividad?) dos: simetría y universalidad.
_[Nota: la discusión es paralela y muy similar a una que aparece en una sección aún no publicada de mi libro de probabilidad y estadística. La relación causal entre ambos hechos es bastante problemática.] _
Va de muestrear los números $latex 1, \dots, n$ que tienen asignadas probabilidades $latex p_1, \dots, p_n$. Una manera muy impráctica (en R, basta usar sample) y nada intuitiva de hacerlo es recurriendo a la distribución de Gumbel:
library(evd) pes <- runif(5) pes <- pes / sum(pes) gammas <- log(pes) + 2 x <- rgumbel(length(pes)) muestra <- which.max(gammas + x) O, en masa, aplicando
get_samples <- function(n){ replicate(n, { x <- rgumbel(length(pes)) which.
El TCL (teorema central del límite) ayuda a responder una pregunta en algunos casos concretos. Pero a veces se nos olvida que lo importante es la pregunta y sus muchas otras potenciales respuestas.
La pregunta es: ¿qué distribución, si alguna, es razonable suponer que puedan tener mis datos? El TCL permite responder ¡normal! en algunos casos singulares que fueron más importantes hace tiempo que hoy en día.
Pero llama la atención la importancia (medida, si se quiere, en número de páginas dedicadas a ello en los textos introductorios a la teoría de la probabilidad y la estadística) que se le otorga a esa particularísima respuesta y a su justificación y el poco al de tratar de proporcionar herramientas para tratar de dar una respuesta más o menos coherente a la pregunta general.
Abundo sobre mi entrada del otro día. Usando números aleatorios hirsutos,
n <- 200 x <- runif(n) plot(cumsum(x - .5), type = "l") produce
mientras que
library(randtoolbox) s <- sobol(n, 1, scrambling = 3) plot(cumsum(s - .5), type = "l") genera
que tiene un cariz totalmente distinto.
[Esta entrada lo es, además de por su propio mérito, en preparación de la que habrá de ocurrir mañana o pasado.]
Así:
My father, Leonard Jimmie Savage, was an early advocate of subjective probability. He encouraged me from a young age to think of the probability of an event as the amount I would pay for a gamble that would pay $100 if the event occurred.
Sam Savage, 2004 (fuente)
En Hypermind se está planteando esta cuestión:
A día de hoy, el S&P 500 está en 2830. La predicción está y viene estando aproximadamente alrededor de la regla de tres:
$$ \frac{s - 2000}{3000 - 2000} \times 100%$$
donde $latex s$ es la cotización del índice.
Y aquí vienen dos preguntas/ejercicios para mis lectores:
Suponiendo que el S&P 500 se comportase como un movimiento browniano (sin drift), ¿sería precisa la regla anterior?