Neyman y la definición original de los intervalos de confianza

Se atribuye a Neyman (y particular por su artículo de 1935 On the Problem of Confidence Intervals) la paternidad del concepto de intervalo de confianza. Aunque, leyéndolo y de acuerdo con las referencias bibliográficas de la cosa parece haber precedentes en el innombrable F (sí, el que osaba publicar en el también innombrable Journal of E.).

Lo interesante del tema es que, contrariamente a las reinterpretaciones posteriores, los define tal y como se le ocurrirían a un lego medianamente inteligente:

Una potencial consecuencia positiva de lo del coronavirus

Veo

y consulto en uno (de los más usados y famosos) de esos manuales españoles (ergo, hiperclásicos) de introducción a la modelización de series temporales y no veo capítulo con el que pueda tratarse razonablemente.

¡Tiempo de actualizarse (p.e., así)!

Socialismo y fascismo en Italia: una reflexión sobre la causalidad y las microcausas

[Una entrada más bien especulativa acerca de esbozos de ideas ocurridas durante un paseo vespertino por Madrid y que apunto aquí por no tener una servilleta a mano.]

El artítulo War, Socialism and the Rise of Fascism: An Empirical Exploration me ha hecho volver a reflexionar sobre el asunto de la causalidad (al que, además, debo un apartado en siempre inacabado libro de estadística para los mal llamados científicos de datos).

Un extracto del documento metodológico de las proyecciones de población del INE

Está extraído de aquí y dice los siguiente:

Las Proyecciones de Población constituyen una simulación estadística de la población que residiría en España, sus comunidades autónomas y provincias en los próximos años, así como de la evolución de cada uno de los fenómenos demográficos básicos asociados, en caso de mantenerse las tendencias y comportamientos demográficos actualmente observados.

Para interpretar correctamente los resultados de las Proyecciones de Población es importante distinguir entre previsiones y proyecciones demográficas. Si bien pueden emplear el mismo método de cálculo, difieren en la filosofía.

Los orígenes de la sicología WEIRD

Es oportuno en estos tiempos que corren aprender los unos y recordar los otros por qué los WEIRD (occidentales, educados, industrializados, ricos y democráticos, recuerdo) somos excepcionales (en las acepciones del término que a cada cual le plazcan más).

De eso trata The Origins of WEIRD Psychology, que se resume en tres puntos:

  • Los WEIRD somos realmente weird (o comparativamente anómalos con respecto a con quienes compartimos mundo).
  • El motivo es la distinta concepción de las relaciones familiares.
  • Que fue causado por la subversión a la que la iglesia (católica) causó en los modos familiares pretéritos prácticamente desde la antigüedad.

Tiene muchas lecturas. Tantas que para qué ofrecer la mía.

Un decepcionante método de "inferencia robusta" para GLMs de Poisson

[Quod si sal evanuerit in quo sallietur ad nihilum valet ultra nisi ut mittatur foras et conculcetur ab hominibus.]

Vuelvo con mi monotema de los últimos días: cómo hacer GLMs de Poisson robustos. Encuentro la tesis Robust Inference for Generalized Linear Models: Binary and Poisson Regression y pienso: ajá, será cuestión de copipegar.

Nada más lejos de la realidad. El método propuesto en la tesis está basado en asignaciones de pesos a las observaciones usando kernels con centros y anchuras basadas respectivamente en

Este es uno de los pecados estadísticos que menos indulgencia suscita

INE, Proyecciones de Población 2020-2070 (enlace)

INE, Proyecciones de Población 2020-2070 (enlace)

Nota para desavisados: ¿veis cómo se comporta la varianza antes/después?

Otra nota: la publicación de las proyecciones de población del INE es casi todos los años motivo de recochineo bloguero. Buscad (p.e., aquí) y encontraréis.

Nota final: Sí, sí, una proyección es lo que ocurriría si se mantuvieran las tendencias actuales. Eso os dirán. Precisamente por eso, esta entrada y el gráfico de más arriba.

Una diferencia teórica importante entre los lm y el resto de los glm

[Este es un extracto, una píldora atómica, de mi charla del otro día sobre el modelo de Poisson y al sobredispersión.]

Aunque me guste expresar el modelo lineal de la forma

$$ y_i \sim N(a_0 + \sum_j a_j x_{ij}, \sigma_i)$$

hoy, para lo que sigue, es más conveniente la representación tradicional

$$ y_i = a_0 + \sum_j a_j x_{ij} + \epsilon_i$$

donde si no sabes lo que es cada cosa, más vale que no sigas leyendo.

En defensa de iris

R

El archiconocido conjunto de datos iris es víctima reciente de un ataque relacionado con su pecado original: haber tenido unos padres estigmatizados hoy por su otrora popular idea de que gracias a la ciencia podríamos construir un futuro mejor.

También ha sido víctima de ataques, esta vez más endógenos, relacionados con lo menguado de su tamaño y lo trivial de su estructura.

Vengo aquí a romper una lanza —tres, más bien— en favor de este muy querido de los más conjunto de datos. Tres lanzas esgrimidas, como se verá, en contextos, con fines y ante públicos muy concretos.

Esto no es práctico, pero sí bonito; bonito, además, de esa forma inasequible a la chusma

Va de muestrear los números $latex 1, \dots, n$ que tienen asignadas probabilidades $latex p_1, \dots, p_n$. Una manera muy impráctica (en R, basta usar sample) y nada intuitiva de hacerlo es recurriendo a la distribución de Gumbel:

library(evd)

pes <- runif(5)
pes <- pes / sum(pes)
gammas <- log(pes) + 2
x <- rgumbel(length(pes))
muestra <- which.max(gammas + x)

O, en masa, aplicando

get_samples <- function(n){
    replicate(n, {
        x <- rgumbel(length(pes))
        which.max(gammas + x)
    })
}

El seudocódigo está extraído de la Wikipedia y el motivo por el que la cosa funciona en lugar de no funcionar, que es la parte bonita del asunto, está explicado aquí.