Carlos J. Gil Bellosta

No hay mucho más que decir.

Esta es una cosa bastante contraintituiva. Uno diría que en la moda, pero no es exactamente así.

Veamos qué pasa con la distribución normal conforme aumenta la dimensión.

En una dimensión son más frecuentes los valores próximos al centro:

hist(abs(rnorm(10000)), breaks = 100,
    main = "distribución de la distancia al centro")

Pero en dimensiones más altas (p.e., 10), la cosa cambia:

library(mvtnorm)
muestra <- rmvnorm(10000, rep(0, 10),
    diag(rep(1, 10)))
distancias <- apply(muestra, 1,
    function(x) sqrt(sum(x^2)))
hist(distancias, breaks = 100,
     main = "distribución de la distancia al centro")

Todo esto arranca con el tuit:

En conjunto, como digo, los países con Estados grandes tienden a ser poco progresivos pic.twitter.com/oeI6hkUZwd
— Juan Ramón Rallo (@juanrallo) February 1, 2021

Esa gráfica, extraída de un documento de la OCDE, creo, fue uno de los argumentos esgrimidos por JR Rallo para defender cierta postura que no viene al caso. Lo relevante para estas páginas es que fue contestado y protestado por muchos —de algunos de los cuales, dada su autoproclamada condición de divulgadores científicos, cabría esperar más— en términos exclusivamente de lo pequeño de la R².

Cuando uno crea uno de esos modelos que tanta mala fama tienen hoy en día —y sí, me refiero a esos de los que dependen las concesiones de hipotecas, etc.— solo tiene dos fuentes de datos:

La llamada información _estadística _acerca de los sujetos: donde vive, sexo, edad, etc.
Información personal sobre el sujeto: cómo se ha comportado en el pasado.

Sin embargo, aquí se nos informa de cómo ha sido multado un banco finlandés por

El otro día alguien argumentaba (de una manera que no voy a adjetivar):

La lógica (proposiciona, de primer orden) es importante (si lo que se pretende es actuar racionalment), la probabilidad no tanto.
El teorema de Bayes es solo un resultado trivial dentro de una disciplina mucho menos relevante que la lógica.
Ergo, ¿por qué tanto coñacito con el dichoso teorema de Bayes?

Como había alguien equivocado en internet, sonaron todas las alarmas que tengo colocadas en casa y tuve que acudir a enderezar el tuerto. Así, respondí algo así como que:

El asunto de la separación perfecta en el modelo logístico es sobradamente conocido. Solo quiero añadir al respecto dos cosas que no se suelen decir:

Es un dolor que solo duele a los frecuentistas que no usan regularización (y van quedando cada vez menos de esos).
Que no es malo sino bueno: ¿qué cosa mejor que tus datos puedan responder categóricamente las preguntas que les planteas (supuesto, claro, está, un N suficientemente grande).

Lo que es menos conocido es que el problema de la separación perfecta también puede afectar a la regresión de Poisson.

Por diversos motivos que no vienen al caso pero entre los que se cuentan lo frágil de mi voluntad, he acabado renunciado a renunciar a publicar material en YouTube. Así que he creado un canal (ilustrado por los archifamosísimos dados del perínclito Fomenko) y he publicado el que no cabe duda que será el primero de una larga y exitosa cadena de vídeos:

Tengo algunas ideas en mente con el que alimentar el canal de contenido que será del gusto de las masas ilustradas y que el tiempo irá desvelando en su debido momento.

Simpson, un viejo amigo de estas páginas, nos enseña, por ejemplo, cómo es posible que los salarios desciendan a lo largo de todas sus subcategorías y que, a la vez, crezcan en promedio en el tiempo. Basta para ello que se reduzca el peso la proporción de los trabajos peor pagados en la economía.

Los institutos estadísticos, a la hora de estimar el índice de precios, son conscientes del problema y elaboran cestas de la compra más o menos ideales (a lo Quetelet) y calculan su precio a lo largo del tiempo.

Ahora que estoy trabajando en el capítulo dedicado a la modelización (clásica, frecuentista) de mi libro, me veo obligado no ya a resolver sino encontrar una vía razonable entre las tres —¿hay más?— posibles respuestas a esa pregunta.

La primera es yo modelo un proceso (o fenómeno), los datos llegan luego. Yo pienso que una variable de interés $Y$ depende de $X_i$ a través de una relación del tipo

$$ Y | X_i \sim N(f(X_i, \sigma)$$

Prometí escribir sobre

y, se conoce, ha llegado el día de hacerlo. Se trata en apariencia de un chiste matemático que, espero, capten todos los lectores de este blog en su sentido más llano.

Todas las facetas del gráfico muestran los mismos puntos. Se trata de una selección magistral de ellos. Tanto que alguien debería paquetizar sus coordenadas y publicarlos. Serían un nuevo iris. Dan, como se ve, mucho juego: cada uno de los ajustes parece razonable, tan bueno como cualquiera de esos que estamos sobradamente acostumbrados a ver en prensa, tanto generalista como especializada.

Nuevo vídeo en mi canal de YouTube: conversación con Luz Frías

¿Dónde son más frecuentes las muestras de una distribución en dimensiones altas?

Hay mil motivos para criticar una regresión "trucha", pero una R² baja no es uno de ellos

Solo el modelo vacío pasa todos los "checks"

El teorema de Bayes como la versión modal del modus tollens

Separación perfecta en el modelo de Poisson

Allanando el camino a Andorra (aka he publicado mi primer vídeo en YouTube)

Simpson sobre la desigualdad

¿Qué modelas cuando modelas?

Más sobre el mito de la objetividad (especialmente, la "data-driven")