La falacia de la conjunción desaforada

La falacia, para aquellos que no la conozcan, está descrita aquí. El ejemplo más citado al respecto es el de Linda:

Linda tiene 31 años de edad, soltera, inteligente y muy brillante. Se especializó en filosofía. Como estudiante, estaba profundamente preocupada por los problemas de discriminación y justicia social, participando también en manifestaciones anti-nucleares. ¿Que es más probable?

  1. Linda es una cajera de banco.

  2. Linda es una cajera de banco y es activista de movimientos feministas.

Sobre la "inferencia basada en magnitudes"

Este artículo (sobre si los estadísticos se autoaplican el mismo rigor metodológico a la hora de seleccionar herramientas de análisis que luego exigen a otros) me llevó a este otro artículo donde se menciona una técnica, la inferencia basada en magnitudes, MBI en lo que sigue, por sus siglas en inglés, de la que trata lo que sigue.

Buscaban las autoras del segundo artículo un ejemplo de una técnica de esas que se publican en revistas de metodología estadística que acabara no teniéndose de pie. La encontraron en la MBI, que es una técnica:

Nuevo vídeo en YouTube: ¿son las probabilidades "subjetivas"? ¿Existe el azar?

El vídeo es

y su objetivo es refutar cierta visión muy extraña de la probabilidad que se oye sostener a cierto tipo de personas de vez en cuando, la de que es un fenómeno subjetivo, acompañado frecuentemente por la todavía más extravagante afirmación de que el azar no existe (salvo, tal vez, en el nivel subatómico).

Sobre el teorema de Aumann

[Del que ya hablé hace un tiempo desde una perspectiva diferente.]

Prioris

A y B (dos personas) tienen la misma priori Beta(1, 1) —que es uniforme en [0, 1]— sobre la probabilidad de cara de una moneda.

Datos

Entonces A presencia una tirada de la moneda (a la que no asiste B) y es cara. Su priori se actualiza a una Beta(1, 2).

Luego B presencia una tirada de la moneda (a la que no asiste A) y es cruz. Su priori se actualiza a una Beta(2, 1).

Un argumento para usar la normal: la maximización de la entropía

Llegaré a la normal. Antes, algo sobre la entropía.

Nos interesa saber y medir el grado de concentración de una distribución. Por ejemplo, si X es una variable aleatoria con función de densidad $latex f(x)$ y $latex x_1, \dots, x_n$ es una muestra de X, entonces, la expresión

$$ \frac{1}{n} \sum_i f(x_i)$$

da una idea de la concentración vs dispersión de X:

  • Si es grande, muchos de los $latex x_i$ procederán de lugares donde $latex f$ es grande; en un caso discreto, que tal vez ayude a mejorar la intuición sobre la cosa, habría muchos valores repetidos.
  • Si es pequeño, muchos de los $latex x_i$ procederán de puntos de baja probabilidad; en un caso discreto, aparecerían muchos valores $latex x_i$ diversos y de probabilidad baja.

La expresión anterior converge a

Sobre sumas de cuadrados de normales con varianzas desiguales

En mi entrada anterior mencioné cómo la suma de cuadrados de normales, aun cuando tengan varianzas desiguales, sigue siendo aproximadamente $latex \chi^2$. Es el resultado que subyace, por ejemplo, a la aproximación de Welch que usa R por defecto en t.test. Puede verse una discusión teórica sobre el asunto así como enlaces a la literatura relevante aquí.

Esta entrada es un complemento a la anterior que tiene lo que a la otra le faltan: gráficos. Al fin y al cabo, es un resultado que se prueba a ojo: efectivamente, la suma de […] tiene aspecto de $latex \chi^2$, determinemos su parámetro.

Tres "teoremas" que son casi ciertos

I.

Si $X_1, \dots, X_{12}$ son uniformes en [0,1] e independientes, entonces $latex X_1 + \dots + X_{12} - 6$ es una variable aleatoria normal.

Puede entenderse como un corolario práctico del teorema central del límite habida cuenta de que la varianza de $latex X_i$ es 1/12 y su media es 1/2.

Es útil porque, se ve, en algunos dispositivos embebidos no se dispone de una librería matemática extensa y, se ve, a veces hace falta muestrear la normal. Más, aquí.

¿Dónde son más frecuentes las muestras de una distribución en dimensiones altas?

Esta es una cosa bastante contraintituiva. Uno diría que en la moda, pero no es exactamente así.

Veamos qué pasa con la distribución normal conforme aumenta la dimensión.

En una dimensión son más frecuentes los valores próximos al centro:

hist(abs(rnorm(10000)), breaks = 100,
    main = "distribución de la distancia al centro")

Pero en dimensiones más altas (p.e., 10), la cosa cambia:

library(mvtnorm)
muestra <- rmvnorm(10000, rep(0, 10),
    diag(rep(1, 10)))
distancias <- apply(muestra, 1,
    function(x) sqrt(sum(x^2)))
hist(distancias, breaks = 100,
     main = "distribución de la distancia al centro")

Hay mil motivos para criticar una regresión "trucha", pero una R² baja no es uno de ellos

Todo esto arranca con el tuit:

Esa gráfica, extraída de un documento de la OCDE, creo, fue uno de los argumentos esgrimidos por JR Rallo para defender cierta postura que no viene al caso. Lo relevante para estas páginas es que fue contestado y protestado por muchos —de algunos de los cuales, dada su autoproclamada condición de divulgadores científicos, cabría esperar más— en términos exclusivamente de lo pequeño de la R².

Solo el modelo vacío pasa todos los "checks"

Cuando uno crea uno de esos modelos que tanta mala fama tienen hoy en día —y sí, me refiero a esos de los que dependen las concesiones de hipotecas, etc.— solo tiene dos fuentes de datos:

  • La llamada información _estadística _acerca de los sujetos: donde vive, sexo, edad, etc.
  • Información personal sobre el sujeto: cómo se ha comportado en el pasado.

Sin embargo, aquí se nos informa de cómo ha sido multado un banco finlandés por

El teorema de Bayes como la versión modal del modus tollens

El otro día alguien argumentaba (de una manera que no voy a adjetivar):

  • La lógica (proposiciona, de primer orden) es importante (si lo que se pretende es actuar racionalment), la probabilidad no tanto.
  • El teorema de Bayes es solo un resultado trivial dentro de una disciplina mucho menos relevante que la lógica.
  • Ergo, ¿por qué tanto coñacito con el dichoso teorema de Bayes?

Como había alguien equivocado en internet, sonaron todas las alarmas que tengo colocadas en casa y tuve que acudir a enderezar el tuerto. Así, respondí algo así como que: