Estadística

Neyman y la definición original de los intervalos de confianza

Se atribuye a Neyman (y particular por su artículo de 1935 On the Problem of Confidence Intervals) la paternidad del concepto de intervalo de confianza. Aunque, leyéndolo y de acuerdo con las referencias bibliográficas de la cosa parece haber precedentes en el innombrable F (sí, el que osaba publicar en el también innombrable Journal of E.).

Lo interesante del tema es que, contrariamente a las reinterpretaciones posteriores, los define tal y como se le ocurrirían a un lego medianamente inteligente:

Una potencial consecuencia positiva de lo del coronavirus

Veo

y consulto en uno (de los más usados y famosos) de esos manuales españoles (ergo, hiperclásicos) de introducción a la modelización de series temporales y no veo capítulo con el que pueda tratarse razonablemente.

¡Tiempo de actualizarse (p.e., así)!

Un extracto del documento metodológico de las proyecciones de población del INE

Está extraído de aquí y dice los siguiente:

Las Proyecciones de Población constituyen una simulación estadística de la población que residiría en España, sus comunidades autónomas y provincias en los próximos años, así como de la evolución de cada uno de los fenómenos demográficos básicos asociados, en caso de mantenerse las tendencias y comportamientos demográficos actualmente observados.

Para interpretar correctamente los resultados de las Proyecciones de Población es importante distinguir entre previsiones y proyecciones demográficas. Si bien pueden emplear el mismo método de cálculo, difieren en la filosofía.

Un decepcionante método de "inferencia robusta" para GLMs de Poisson

[Quod si sal evanuerit in quo sallietur ad nihilum valet ultra nisi ut mittatur foras et conculcetur ab hominibus.]

Vuelvo con mi monotema de los últimos días: cómo hacer GLMs de Poisson robustos. Encuentro la tesis Robust Inference for Generalized Linear Models: Binary and Poisson Regression y pienso: ajá, será cuestión de copipegar.

Nada más lejos de la realidad. El método propuesto en la tesis está basado en asignaciones de pesos a las observaciones usando kernels con centros y anchuras basadas respectivamente en

Este es uno de los pecados estadísticos que menos indulgencia suscita

INE, Proyecciones de Población 2020-2070 (enlace)

INE, Proyecciones de Población 2020-2070 (enlace)

Nota para desavisados: ¿veis cómo se comporta la varianza antes/después?

Otra nota: la publicación de las proyecciones de población del INE es casi todos los años motivo de recochineo bloguero. Buscad (p.e., aquí) y encontraréis.

Nota final: Sí, sí, una proyección es lo que ocurriría si se mantuvieran las tendencias actuales. Eso os dirán. Precisamente por eso, esta entrada y el gráfico de más arriba.

Una diferencia teórica importante entre los lm y el resto de los glm

[Este es un extracto, una píldora atómica, de mi charla del otro día sobre el modelo de Poisson y al sobredispersión.]

Aunque me guste expresar el modelo lineal de la forma

$$ y_i \sim N(a_0 + \sum_j a_j x_{ij}, \sigma_i)$$

hoy, para lo que sigue, es más conveniente la representación tradicional

$$ y_i = a_0 + \sum_j a_j x_{ij} + \epsilon_i$$

donde si no sabes lo que es cada cosa, más vale que no sigas leyendo.

Charla sobre cosas que no te han contado sobre le modelo de Poisson (y de paso, el logístico)

Este es un anuncio de una charla que daré este viernes (2020-09-18) dentro del congreso virtual EncuentRos en la fase R. Ni que decir tiene que los detalles logísticos pueden consultarse en el enlace anterior.

Hablaré de cuestiones relativas al modelo de Possion (gran parte de las cuales pueden trasladarse también al logístico) de las que se habla poco y sobre las que la teoría que uno tropieza por ahí no es del todo clara pero que se manifiestan claramente en datos como los de la monitorización de la mortalidad, que será discutida también de pasada.

Infradispersión en la logística

Le he dado muchas vueltas en estos últimos tiempos al asunto de la sobredispersión, particularmente en dos tipos de modelos: Poisson y logístico. Así que, aunque solo sea por proximidad semántica, se me quedan pegados ejemplos y casos de ese fenómeno mucho menos frecuente que es el de la infradispersión.

Un ejemplo ilustrativo del fenómeno que se me ocurrió el otro día era

pero hace nada, ese señor lleno de paz y amor que es Putin, nos ha regalado otro:

Recordatorio: no olvidéis restar los fallecimientos atribuibles al calor en la estimación del efecto de la "segunda ola"

La estimación de la mortalidad atribuible a la gripe estacional (que no, que no se hace consultando la causa de muerte que consignan los médicos medio al buen tuntún por motivos administrativos y que luego recoge el INE, como parece que dan a entender estos beneméritos verificadores para la confusión de quienes den su palabra por buena) tiene una complicación sustancial: ocurre simultánea y co-casualmente con el frío, que incrementa las defunciones por motivos otros. En términos estadísticos, es un problema de práctica colinealidad entre dos regresores cuyos coeficientes miden el impacto de la gripe y el frío respectivamente.