Probabilidad

Juegos justos con monedas truchas

—¿Cara (H) o cruz (T)?

—Sí.

Lo siento, ese era otro chiste. Comienzo de nuevo.

—¿Cara (H) o cruz (T)?

—No me fío porque tu moneda es trucha. Salen más H (o T) que T (o H, tanto da).

—Aun así podemos plantear un juego justo.

—¿Cómo?

—Cada uno elige HT o TH. (i) Se tira la moneda dos veces. Si sale HH o TT, GOTO (i). Si sale otra cosa, gana quien haya elegido tal combinación.

Simpson y la plebe anumérica

Supongamos que los habitantes de un país tienen una probabilidad determinada (y no necesariamente igual) $latex p_i$ de comprar un determinado producto. Supongamos que se lanza una campaña publicitaria que incrementa en una cantidad fija $latex \epsilon$, p.e., 5%, esa probabilidad.

Supongamos, finalmente, que se trata de una cantidad que se desea estimar.

Unos individuos reciben la campaña publicitaria. Otros no. ¿Cuál es la diferencia entre las proporciones de individuos que compran el producto en uno y otro grupo? ¿$latex \epsilon$? ¿Es esa nuestra mejor estimación?

¿Un 30% de probabilidad de que llueva mañana?

¿Qué significa que [los servicios meteorológicos digan que] hay un 30% de probabilidad de que llueva mañana? Pues resulta que significa distintas cosas para distintas personas, al menos, según A 30% Chance of Rain Tomorrow: How Does the Public Understand Probabilistic Weather Forecasts?

En ese artículo Gigerenzer y sus coautores proponen a una muestra de sujetos las opciones siguientes:

  • Mañana lloverá el 30% del tiempo.
  • El 30% de los días que siguen a uno como el de hoy, llueve.
  • Lloverá en el 30% de la zona

El artículo existe precisamente porque la opción elegida por muchos de los entrevistados no es la que conocen mis lectores sin necesidad de reverlársela.

Dislexia probabilística

Esta entrada trata de cuadrados. Tales como estos

cuadros_separados

Son dos cuadrados de area 10 y 2.

En realidad, mi entrada trata de una configuración de cuadrados solo marginalmente más complicada, esta:

cuadros_solapados

Todo el mundo podría decir (y es cierto) que el área de la intersección de los cuadrados es el 3.3% de la del mayor y el 16.5% de la del menor. Son dos afirmaciones ambas ciertas y, por supuesto, compatibles.

Más allá del teorema central del límite

Uno espera la media de un número suficiente de variables aleatorias razonablemente iid tenga una distribución normal. Uno casi espera siempre obtener ese aburrido histograma cada vez que remuestrea medias. La gente dice que el teorema central del límite rige necesariamente cuando su tamaño muestral es del orden de magnitud del bruto anual de un gerifalte. Etc.

Pero a veces uno tropieza con distribuciones bootstrap tales como

whentheoutlierisbigenough

que le hacen recordar que existe un universo más allá de las hipótesis de esos teoremas tan manidos; que la teoría, al final, solo llega hasta donde llega y que, en definitiva, hay que estar siempre alerta y desconfiar del rituales y automatismos.

Causalidad a la Pearl y el operador do

Un tipo me pasó el librito de Pearl, Causality, y se ha pasado varios días dando la vara con que si me había leído ya el epígrafe. Pues sí, lo he leído este finde. Y no solo lo he leído sino que voy a escribir sobre ello.

Había tratado de leer cosas de Pearl en el pasado. Pero las encontraba demasiado llenas de letras difíciles de comprender si no se entendían bien las fórmulas. Que, a su vez, eran difíciles de comprender sin tener una idea clara de qué indicaban los diagramas adjuntos. Para cuya comprensión había que hacerse bien con el texto. Vamos, que nunca había sacado nada en claro. Aunque, confieso, la coyuntura en la que suelo leer ese tipo de cosas (metros, trenes, autobuses) tampoco me ayuda.

Todo el mundo habla de cadenas de Markov

Todo el mundo habla últimamente de cadenas de Markov. ¿No os habéis dado cuenta? ¿O seré yo el que saca a relucir el asunto venga o no al caso? Sea que se haya puesto de moda o que esté mi misma obsesión por el asunto sesgando mi impresión sobre sobre (me encanta escribir dos preposiciones seguidas) lo que la gente habla, es el caso que el otro día me comprometí a escribir sobre

El chocheo de los dioses

Uno tiene —o tuvo— dioses. Sentir admiración por alguien (y su obra) tiene, lo admito, una dimensión infantil. Es también, por supuesto, una sobre simplificación de la realidad. Porque la verdad no la escriben cuatro plumas: las ideas valiosas emergen por doquier. Desafortunadamente, nadie tiene tiempo para filtrar el flujo diario de noticias, libros, conceptos. Así que creo que es excusable que, por simplificar, uno eleve personal y subjetivamente a una serie de individuos a la categoría de dioses, de encargados de filtrar la información. De alguna manera, se conviertan en oráculos personales que desentrañan la complejidad del día a día y se convierten en fuente de preguntas y acaso respuestas.

Mi solución al otro problema del cumpleaños

Pues eso, que me piqué —y parte de la culpa la tiene este sujeto— con el otro problema del cumpleaños y he aquí el código —exacto salvo redondeos, no mediante simulaciones— que he usado para resolverlo:

f <- function(n, k = 365, v = NULL){

  if(is.null(v))
    v <- c(1, rep(NA, k))

  res <- 1

  for(j in (k-1):1){
    v[k-j] <- ifelse( is.na(v[k-j]), f(n, k-j, v), v[k-j])
    res    <- res - choose(k,j) * ((k-j)/k)^n * v[k-j]
  }

  res
}

f(2287)
#0.5003708
f(2286)
#0.4994142

Lo que hay al final son los ensayos últimos de mi mecanismo de cutrebúsqueda binaria para acotar la solución usando la función f. Esta función calcula la probabilidad de que una distribución aleatoria de n bolas en k urnas no deje vacía nunguna de ellas.

De ratios, apuestas y riesgos

Nunca he entendido eso de los odds. Me refiero a eso que mencionan las películas: ocho contra uno a favor de tal, cinco contra tres a favor de cual. Y no creo que sea el único al que le son ajenos. De hecho, la página de la Wikipedia en español correspondiente a la inglesa para odds se refiere a ellas como cuotas, término que jamás hasta hoy había visto así usado. Tampoco lo han visto, se concoce, los lexicógrafos de la RAE.

Muestreos aleatorios sobre la península Ibérica, por ejemplo

El problema fue sugerido por Eloy Ortiz en un mensaje a r-help-es. Quería saber cómo muestrear aleatoriamente (i.e., uniformemente) puntos sobre una región de la superficie terrestre delimitada por su bounding box (i.e., las coordenadas que definen un rectángulo sobre la esfera).

Obviamente, no vale con muestrear latitud y longitud uniformemente: el área comprendida entre dos meridianos cerca del ecuador es mayor que la comprendida entre otros dos más próximos al polo. Los husos se estrechan lejos del ecuador.

¿Cuántos peces hay en un lago?

Quien haya estudiado estadística o probabilidad en algún tipo de institución que ofrece educación reglada se habrá topado con el problema de estimar el número de peces de un lago.

Esencialmente, lo que puede hacerse (dado que es imposible realizar un censo completo) es lo siguiente:

  • Pescar cierto número de peces, p1, marcarlos y devolverlos al lago.
  • Pescar cierto número de peces, p2, y contar cuántos de ellos fueron marcados el día anterior, n.
  • Estimar el número de peces como p1 * p2 / n (dado que la proporción de peces marcados en el lago, p1 / x debiera ser similar a la de pescados el segundo día, n / p2).

Con R puede hacerse una estimación (incluso del error), así: