Probabilidad

¿Cuántos peces hay en un lago?

Quien haya estudiado estadística o probabilidad en algún tipo de institución que ofrece educación reglada se habrá topado con el problema de estimar el número de peces de un lago.

Esencialmente, lo que puede hacerse (dado que es imposible realizar un censo completo) es lo siguiente:

  • Pescar cierto número de peces, p1, marcarlos y devolverlos al lago.
  • Pescar cierto número de peces, p2, y contar cuántos de ellos fueron marcados el día anterior, n.
  • Estimar el número de peces como p1 * p2 / n (dado que la proporción de peces marcados en el lago, p1 / x debiera ser similar a la de pescados el segundo día, n / p2).

Con R puede hacerse una estimación (incluso del error), así:

Un pequeño problema de probabilidad

El tuit

de John Allen Paulos me indujo a escribir

number.numbers <- function(n){
  sum(cumsum(sample(0:n)) < n) + 1
}

res <- replicate(10000, number.numbers(1000))

código con el que, efectivamente, puede comprobarse que la media es, efectivamente, e.

Ahora bien, ¿alguien se atreve a explicar por qué?

(No leas esta pista: (s??)?s??).

Statistics Online Computational Resource

Sigo sin estar fino para hacer entradas interesantes. Así que de nuevo me voy a limitar a ejercer de divulgador de lo ajeno. Y hoy le corresponde el turno al Statistics Online Computational Resource, un portal nacido con el objetivo de fomentar el conocimiento de la estadística y la probabilidad en línea.

Podría abundar sobre los recursos disponibles en SOCR, pero prefiero ahorrar mi tiempo y el de mis lectores invitándolos directamente a visitarlo y comprobarlo por sí mismos.

¿Eres un analfabeto numérico?

Si quieres comparar tu nivel de alfabetización numérica con una muestra de personas con estudios universitarios de muchas partes del mundo, puedes realizar este test.

Se lo llama Berlin Numeracy Test y está descrito en este artículo. Y de él extraigo una tabla, la cinco,

en la que aparecen los resultados del test en función de la combinación de país e idioma y ordenados por el porcentaje de respuestas en los cuartiles superiores. Y no me llena ni de orgullo ni de satisfacción, la verdad sea dicha.

HHH, HHT y el comando "yield" de Python

Variable aleatoria X: tiramos una moneda al aire sucesivamente y contamos el número de veces que lo hacemos hasta obtener el patrón HHH (tres caras) en las tres últimas tiradas.

Variable aleatoria Y: lo mismo, pero hasta que salga el patrón HHT.

Entonces las medias de X e Y son iguales, ¿verdad? Pues no. (¿Alguien sabría decirme cuál de las combinaciones, HHH o HHT, tiende, en promedio, a aparecer antes? Pueden darse explicaciones muy complejas, pero existe una muy simple e intuitiva).

Un (¿sutil?) error en el cálculo de probabilidades en El País

Leo en El País que

La aviación es el modo de transporte más seguro de cuantos existen. Los expertos califican una organización como ultrasegura cuando ofrece un ratio de un accidente por cada millón de operaciones. 2011 se cerró en Europa con cero accidentes aéreos. En todo el mundo se registraron 0,37 accidentes por cada millón de vuelos. Estadísticamente hablando, una persona que volara diariamente tendría un accidente en 3.000 años.

Las dos preguntas fundamentales de la teoría de los valores extremos

En muchos ocasiones es necesario realizar estimaciones sobre el máximo de una serie de valores aleatorios.

Uno de los casos más conocidos que me vienen a la mente es el llamado problema de los tanques alemanes. Durante la II Guerra Mundial, los aliados, para estimar el ritmo de producción de tanques del enemigo, recogían el número de serie de los que destruían o capturaban. Gracias a esta muestra potencialmente aleatoria, podían realizar estimaciones del máximo de la serie y, de ahí, del número de unidades construidas durante cierto intervalo de tiempo. Pero este es un problema trivial comparado con el de estimar el máximo nivel que puede alcanzar una riada o la carga que puede llegar a soportar un puente en los próximos cien o mil años.

Odds ratio vs probabilidad

Hoy he sabido vía Twitter lo siguiente:

Como me ha intrigado el asunto de lo de la probabilidad, he acudido al artículo original donde he aprendido que (y, excúsenme: por primera vez no traduzco este tipo de citas):

After we controlled for these characteristics through conditional logistic regression, the presence of one or more guns in the home was found to be associated with an increased risk of suicide (adjusted odds ratio, 4.8; 95 percent confidence interval, 2.7 to 8.5).

Desencriptando (II): la avaricia es mala

El otro día propuse y resolví un problema de encriptación con R. Utilizaba uno de los llamados métodos avariciosos (o greedy) para hallar el máximo de una función (que era, en esencia, la función de verosimilitud de una determinada permutación de caracteres dentro del espacio probabilístico de todas ellas).

Este método funcionó con una cadena relativamente larga para desencriptar pero falla con otras más cortas. Por ejemplo, con

cadena <-c("u","r","i","b","y","r","l","g","m","h","e","r","y",
"b","g","m","a","c","p","y","c","m","d","r","h","z","y",
"r","e","i","c","l","r","i","n","e","c","t","d","t","c","z",
"c","y","c","v","r","o","d","y","s","e","r","q","c","y","c",
"n","g","q","c","i","g","m","r","y","d","i","v","r")

Si ejecuto el código que presenté el otro día,