Separación perfecta en el modelo de Poisson

El asunto de la separación perfecta en el modelo logístico es sobradamente conocido. Solo quiero añadir al respecto dos cosas que no se suelen decir:

  • Es un dolor que solo duele a los frecuentistas que no usan regularización (y van quedando cada vez menos de esos).
  • Que no es malo sino bueno: ¿qué cosa mejor que tus datos puedan responder categóricamente las preguntas que les planteas (supuesto, claro, está, un N suficientemente grande).

Lo que es menos conocido es que el problema de la separación perfecta también puede afectar a la regresión de Poisson.

Allanando el camino a Andorra (aka he publicado mi primer vídeo en YouTube)

Por diversos motivos que no vienen al caso pero entre los que se cuentan lo frágil de mi voluntad, he acabado renunciado a renunciar a publicar material en YouTube. Así que he creado un canal (ilustrado por los archifamosísimos dados del perínclito Fomenko) y he publicado el que no cabe duda que será el primero de una larga y exitosa cadena de vídeos:

Tengo algunas ideas en mente con el que alimentar el canal de contenido que será del gusto de las masas ilustradas y que el tiempo irá desvelando en su debido momento.

Simpson sobre la desigualdad

Simpson, un viejo amigo de estas páginas, nos enseña, por ejemplo, cómo es posible que los salarios desciendan a lo largo de todas sus subcategorías y que, a la vez, crezcan en promedio en el tiempo. Basta para ello que se reduzca el peso la proporción de los trabajos peor pagados en la economía.

Los institutos estadísticos, a la hora de estimar el índice de precios, son conscientes del problema y elaboran cestas de la compra más o menos ideales (a lo Quetelet) y calculan su precio a lo largo del tiempo.

¿Qué modelas cuando modelas?

Ahora que estoy trabajando en el capítulo dedicado a la modelización (clásica, frecuentista) de mi libro, me veo obligado no ya a resolver sino encontrar una vía razonable entre las tres —¿hay más?— posibles respuestas a esa pregunta.

La primera es yo modelo un proceso (o fenómeno), los datos llegan luego. Yo pienso que una variable de interés $latex Y$ depende de $latex X_i$ a través de una relación del tipo

Más sobre el mito de la objetividad (especialmente, la "data-driven")

Prometí escribir sobre

y, se conoce, ha llegado el día de hacerlo. Se trata en apariencia de un chiste matemático que, espero, capten todos los lectores de este blog en su sentido más llano.

Todas las facetas del gráfico muestran los mismos puntos. Se trata de una selección magistral de ellos. Tanto que alguien debería paquetizar sus coordenadas y publicarlos. Serían un nuevo iris. Dan, como se ve, mucho juego: cada uno de los ajustes parece razonable, tan bueno como cualquiera de esos que estamos sobradamente acostumbrados a ver en prensa, tanto generalista como especializada.

Estos keynesianos ven el mundo de una manera muy, muy loca

[Y no, no me refiero (hoy) a los seguidores del Keynes de la “Teoría general del empleo, el interés y el dinero” sino a los de su “Tratado sobre probabilidades”. Misma persona, distinto libro, distinta disciplina. Y excúseme el “clickbait”: no podía no hacerlo.]

Keynes escribió en 1921 su Tratado de probabilidades, según la Wikipedia, una contribución a las bases matemáticas y filosóficas de la teoría de la probabilidad. Le falta añadir descabellada (aunque, como se verá después, tiene su punto), superada y felizmente olvidada. Forma parte de la llamada interpretación lógica (o evidencial) de la probabilidad, de la que no pasa nada si no habéis oído hablar.

Más capítulos del libro de estadística (y otras cosas y proyectos para 2021)

Por un lado, he publicado tres capítulos más de mi libro de estadística desde el último anuncio. Son el (brevísimo) de introducción a la estadística, y los dedicados a la estadística descriptiva y la estimación puntual.

Hay algunas cosas en ellos que no se encuentran habitualmente en otros manuales. Por ejemplo, en el hecho de plantear determinados modelos como meras herramientas de visualización de datos (o de apoyo a ellas) en el de la estadística descriptiva. También se han recogido en ese capítulo las discusiones relevantes sobre lo que es un missing o un outlier y cómo tratarlos en general.

Sobre la relación entre la teoría de la relatividad y la regresión logística

Según la teoría de la relatividad, las velocidades (lineales) se suman así:

v1 <- 100000
v2 <- 100000
velocidad_luz <- 300000

suma_relativista <- function(x,y){
  (x + y) / (1 + x * y / velocidad_luz^2)
}

suma_relativista(v1, v2)
# 180000

Lo que es todavía menos conocido es que esa operación es equivalente a la suma ordinaria de velocidades a través de una transformación de ida y vuelta vía la arcotangente hiperbólica (véase esto). En concreto:

f1 <- function(x) {
  atanh(x / velocidad_luz)
}

f2 <- function(x) {
  velocidad_luz * tanh(x)
}

f2(f1(v1) + f1(v2))
# 180000

Ahora imaginemos un universo donde la velocidad máxima no es la de la luz, sino que solo están permitidas las velocidades entre 0 y 1:

Tres pirámides poblacionales con nombre

La primera es esta, a la que muchos conocen como la pirámide de población española de 1992, pero que yo conozco como la pirámide de población de la masificación universitaria:

Es posible que a muchos no os suene el concepto pero, ¿véis ese pico en la edad de la chavalería? Corresponde a todos esos a los que dio de repente por ponerse a estudiar ingeniería, derecho o matemáticas de forma que no cabían en las aulas. En este tiempo no era inhabitual ver en los telediarios imágenes de estudiantes tomando apuntes de álgebra lineal sentados en los radiadores.

Mis prioris sobre la vacuna: ¿por qué estarían tan desviadas?

I.

De todas las explicaciones sobre cómo funciona la percepción —desde la más inmediata, la de los sentidos (“ahí hay una vaca”), hasta la que nos permite transitar las complejidades físicas y conceptuales del mundo moderno— la que he encontrado más convincente hasta el sol de hoy es una construida alrededor de un símil con el proceso actualización bayesiano de las probabilidades.

Según ella, por un lado tenemos nuestra propia cosmovisión, lo que esperamos ver antes de abrir los ojos a la realidad, nuestra priori (p.e., las llaves están en el llavero). Los sentidos (o las lecturas, o…) aportan información (no mucha, apenas unos KB) y el cerebro opera una suerte de actualización de probabilidades —aquí no tengo claro si los defensores de esta teoría recurren a Bayes de forma alegórica o si piensan que el cálculo es exactamente bayesiano; supongo que habrá de todo— y llega a un consenso sobre lo que ocurre realmente.

Sobre el "programa fuerte" de la sociología de la ciencia: una visión desde la "ciencia de datos"

I.

Estos días y por razones que no vienen a cuento, he estado leyendo Fashionable Nonsense. Es un libro que puede describirse como la versión del director del conocido como escándalo Sokal.

Para los no advertidos y según la Wikipedia:

En 1996, Sokal, profesor de física en la Universidad de Nueva York, envió un artículo pseudocientífico para que se publicase en la revista postmoderna de estudios culturales Social Text. Pretendía comprobar que una revista de humanidades «publicará un artículo plagado de sinsentidos, siempre y cuando: a) Suene bien; y b) Apoye los prejuicios ideológicos de los editores (contra las ciencias empíricas)».

La interpretación de "significativo" en un caso muy concreto

Comienzo por el final:

En el gráfico anterior se aprecian unos datos, generados mediante

n <- 100
x <- 1:n

y_base <- cos(2 * pi * x / 100)
y <- y_base + rnorm(n, 0, .4)

datos <- data.frame(x = x, y_base = y_base, y = y,
                    cos1 = cos(2 * pi * x / 100),
                    cos2 = cos(4 * pi * x / 100))

a los que se ha ido añadiendo un ruido progresivamente, es decir, una serie de outliers artificiales.

Las líneas rojas representan la predicción realizada mediante un modelo de segundo orden de Fourier (si se me permite), es decir,

Encuestas (electorales), medios y sesgos

Me he entretenido estos días en crear un modelo que represente la siguiente hipótesis de trabajo:

Los encuestadores electorales combinan tres fuentes de información: sus propios datos, el consenso de los restantes encuestadores y la voz de su amo, es decir, el interés de quien paga la encuesta.

Es un modelo en el que se introduce (y se mide) el sesgo que introduce cada casa en los resultados. De momento (¡no fiarse!, léase lo que viene después) he obtenido cosas como estas (para el PP):