Probabilidad

El chocheo de los dioses

Uno tiene —o tuvo— dioses. Sentir admiración por alguien (y su obra) tiene, lo admito, una dimensión infantil. Es también, por supuesto, una sobre simplificación de la realidad. Porque la verdad no la escriben cuatro plumas: las ideas valiosas emergen por doquier. Desafortunadamente, nadie tiene tiempo para filtrar el flujo diario de noticias, libros, conceptos. Así que creo que es excusable que, por simplificar, uno eleve personal y subjetivamente a una serie de individuos a la categoría de dioses, de encargados de filtrar la información. De alguna manera, se conviertan en oráculos personales que desentrañan la complejidad del día a día y se convierten en fuente de preguntas y acaso respuestas.

De ratios, apuestas y riesgos

Nunca he entendido eso de los odds. Me refiero a eso que mencionan las películas: ocho contra uno a favor de tal, cinco contra tres a favor de cual. Y no creo que sea el único al que le son ajenos. De hecho, la página de la Wikipedia en español correspondiente a la inglesa para odds se refiere a ellas como cuotas, término que jamás hasta hoy había visto así usado. Tampoco lo han visto, se concoce, los lexicógrafos de la RAE.

Muestreos aleatorios sobre la península Ibérica, por ejemplo

El problema fue sugerido por Eloy Ortiz en un mensaje a r-help-es. Quería saber cómo muestrear aleatoriamente (i.e., uniformemente) puntos sobre una región de la superficie terrestre delimitada por su bounding box (i.e., las coordenadas que definen un rectángulo sobre la esfera).

Obviamente, no vale con muestrear latitud y longitud uniformemente: el área comprendida entre dos meridianos cerca del ecuador es mayor que la comprendida entre otros dos más próximos al polo. Los husos se estrechan lejos del ecuador.

¿Cuántos peces hay en un lago?

Quien haya estudiado estadística o probabilidad en algún tipo de institución que ofrece educación reglada se habrá topado con el problema de estimar el número de peces de un lago.

Esencialmente, lo que puede hacerse (dado que es imposible realizar un censo completo) es lo siguiente:

  • Pescar cierto número de peces, p1, marcarlos y devolverlos al lago.
  • Pescar cierto número de peces, p2, y contar cuántos de ellos fueron marcados el día anterior, n.
  • Estimar el número de peces como p1 * p2 / n (dado que la proporción de peces marcados en el lago, p1 / x debiera ser similar a la de pescados el segundo día, n / p2).

Con R puede hacerse una estimación (incluso del error), así:

Un pequeño problema de probabilidad

El tuit

de John Allen Paulos me indujo a escribir

number.numbers <- function(n){
  sum(cumsum(sample(0:n)) < n) + 1
}

res <- replicate(10000, number.numbers(1000))

código con el que, efectivamente, puede comprobarse que la media es, efectivamente, e.

Ahora bien, ¿alguien se atreve a explicar por qué?

(No leas esta pista: (s??)?s??).

Statistics Online Computational Resource

Sigo sin estar fino para hacer entradas interesantes. Así que de nuevo me voy a limitar a ejercer de divulgador de lo ajeno. Y hoy le corresponde el turno al Statistics Online Computational Resource, un portal nacido con el objetivo de fomentar el conocimiento de la estadística y la probabilidad en línea.

Podría abundar sobre los recursos disponibles en SOCR, pero prefiero ahorrar mi tiempo y el de mis lectores invitándolos directamente a visitarlo y comprobarlo por sí mismos.

¿Eres un analfabeto numérico?

Si quieres comparar tu nivel de alfabetización numérica con una muestra de personas con estudios universitarios de muchas partes del mundo, puedes realizar este test.

Se lo llama Berlin Numeracy Test y está descrito en este artículo. Y de él extraigo una tabla, la cinco,

en la que aparecen los resultados del test en función de la combinación de país e idioma y ordenados por el porcentaje de respuestas en los cuartiles superiores. Y no me llena ni de orgullo ni de satisfacción, la verdad sea dicha.

HHH, HHT y el comando "yield" de Python

Variable aleatoria X: tiramos una moneda al aire sucesivamente y contamos el número de veces que lo hacemos hasta obtener el patrón HHH (tres caras) en las tres últimas tiradas.

Variable aleatoria Y: lo mismo, pero hasta que salga el patrón HHT.

Entonces las medias de X e Y son iguales, ¿verdad? Pues no. (¿Alguien sabría decirme cuál de las combinaciones, HHH o HHT, tiende, en promedio, a aparecer antes? Pueden darse explicaciones muy complejas, pero existe una muy simple e intuitiva).

Un (¿sutil?) error en el cálculo de probabilidades en El País

Leo en El País que

La aviación es el modo de transporte más seguro de cuantos existen. Los expertos califican una organización como ultrasegura cuando ofrece un ratio de un accidente por cada millón de operaciones. 2011 se cerró en Europa con cero accidentes aéreos. En todo el mundo se registraron 0,37 accidentes por cada millón de vuelos. Estadísticamente hablando, una persona que volara diariamente tendría un accidente en 3.000 años.

Las dos preguntas fundamentales de la teoría de los valores extremos

En muchos ocasiones es necesario realizar estimaciones sobre el máximo de una serie de valores aleatorios.

Uno de los casos más conocidos que me vienen a la mente es el llamado problema de los tanques alemanes. Durante la II Guerra Mundial, los aliados, para estimar el ritmo de producción de tanques del enemigo, recogían el número de serie de los que destruían o capturaban. Gracias a esta muestra potencialmente aleatoria, podían realizar estimaciones del máximo de la serie y, de ahí, del número de unidades construidas durante cierto intervalo de tiempo. Pero este es un problema trivial comparado con el de estimar el máximo nivel que puede alcanzar una riada o la carga que puede llegar a soportar un puente en los próximos cien o mil años.

Odds ratio vs probabilidad

Hoy he sabido vía Twitter lo siguiente:

Como me ha intrigado el asunto de lo de la probabilidad, he acudido al artículo original donde he aprendido que (y, excúsenme: por primera vez no traduzco este tipo de citas):

After we controlled for these characteristics through conditional logistic regression, the presence of one or more guns in the home was found to be associated with an increased risk of suicide (adjusted odds ratio, 4.8; 95 percent confidence interval, 2.7 to 8.5).