Estadística

Más sobre si la estadística es una ciencia

A veces nos encontramos con problemas como:

  • curar un orzuelo,
  • calcular el área por debajo de una curva,
  • medir la altura de la torre de una iglesia o
  • estimar la elasticidad del consumo de un producto con respecto a su precio

y utilizamos técnicas como

  • preparar un ungüento de acuerdo con las instrucciones de una vecina octogenaria;
  • pintar la curva sobre un cartón, recortarlo y pesarlo;
  • preguntarle al párroco u
  • obtener datos de precios, consumos y hacer algún tipo de regresión.

Algunas de esas técnicas son tecnologías; otras, no. Todas las tecnologías son técnicas, pero no a la inversa. Una tecnología es una técnica basada en la ciencia.

Un artículo muy poco BdE del BdE

En tiempos, cuando me dedicaba a esas cosas, el principal motivo por el que en los bancos que conocí por dentro no usaban otra cosa que GLMs era el BdE. Más concretamente, el carpetovetonismo del BdE: el BdE quería y esperaba GLMs, los bancos construían y mostraban GLMs a los reguladores y todo el mundo vivía feliz y despreocupado de las novedades en su covacha.

Ahora, en el BdE han publicado esto, cuyo resumen es:

¿Por qué es tan enrevesada la definición de intervalo de confianza?

En esta entrada voy a tratar de reconstruir históricamente el concepto de intervalo de confianza (IC) para tratar de explicar por qué el concepto ha llegado a tener una definición e interpretación tan precisa como confusa (e inútil). La interpretación de lo que realmente son los IC son el coco —el que se lleva a los diletantes que saben poco— con el que amenazar a quienes tienen inseguridades metodológicas y una marca de erudición incontestable para quienes son capaces de enunciarla sin que se les trabe la lengua.

Sobre la "inferencia basada en magnitudes"

Este artículo (sobre si los estadísticos se autoaplican el mismo rigor metodológico a la hora de seleccionar herramientas de análisis que luego exigen a otros) me llevó a este otro artículo donde se menciona una técnica, la inferencia basada en magnitudes, MBI en lo que sigue, por sus siglas en inglés, de la que trata lo que sigue.

Buscaban las autoras del segundo artículo un ejemplo de una técnica de esas que se publican en revistas de metodología estadística que acabara no teniéndose de pie. La encontraron en la MBI, que es una técnica:

¿Qué modelas cuando modelas?

Ahora que estoy trabajando en el capítulo dedicado a la modelización (clásica, frecuentista) de mi libro, me veo obligado no ya a resolver sino encontrar una vía razonable entre las tres —¿hay más?— posibles respuestas a esa pregunta.

La primera es yo modelo un proceso (o fenómeno), los datos llegan luego. Yo pienso que una variable de interés $latex Y$ depende de $latex X_i$ a través de una relación del tipo

Más capítulos del libro de estadística (y otras cosas y proyectos para 2021)

Por un lado, he publicado tres capítulos más de mi libro de estadística desde el último anuncio. Son el (brevísimo) de introducción a la estadística, y los dedicados a la estadística descriptiva y la estimación puntual.

Hay algunas cosas en ellos que no se encuentran habitualmente en otros manuales. Por ejemplo, en el hecho de plantear determinados modelos como meras herramientas de visualización de datos (o de apoyo a ellas) en el de la estadística descriptiva. También se han recogido en ese capítulo las discusiones relevantes sobre lo que es un missing o un outlier y cómo tratarlos en general.

La interpretación de "significativo" en un caso muy concreto

Comienzo por el final:

En el gráfico anterior se aprecian unos datos, generados mediante

n <- 100
x <- 1:n

y_base <- cos(2 * pi * x / 100)
y <- y_base + rnorm(n, 0, .4)

datos <- data.frame(x = x, y_base = y_base, y = y,
                    cos1 = cos(2 * pi * x / 100),
                    cos2 = cos(4 * pi * x / 100))

a los que se ha ido añadiendo un ruido progresivamente, es decir, una serie de outliers artificiales.

Las líneas rojas representan la predicción realizada mediante un modelo de segundo orden de Fourier (si se me permite), es decir,

Encuestas (electorales), medios y sesgos

Me he entretenido estos días en crear un modelo que represente la siguiente hipótesis de trabajo:

Los encuestadores electorales combinan tres fuentes de información: sus propios datos, el consenso de los restantes encuestadores y la voz de su amo, es decir, el interés de quien paga la encuesta.

Es un modelo en el que se introduce (y se mide) el sesgo que introduce cada casa en los resultados. De momento (¡no fiarse!, léase lo que viene después) he obtenido cosas como estas (para el PP):

La lotería del hardware y la cámara de resonancia académica

El artículo The Hardware Lottery es, hasta cierto punto, informativo. En el fondo, no dice nada que no supiésemos ya: que ciertas ideas, algoritmos, procedimientos, métodos, en diversas disciplinas (¡no en matemáticas!) triunfan esencialmente porque les toca la lotería del hardware. No es que sean las mejores desde una perspectiva actual —podría usar aquí los términos etic y emic a lo ovetense— sino que fueron afortunados y bendecidos por el hecho de estar a la (típicamente, medianeja) altura de los tiempos medidos en términos del desarrollo del hardware.

Máxima verosimilitud vs decisiones

En Some Class-Participation Demonstrations for Introductory Probability and Statistics tienen los autores un ejemplo muy ilustrativo sobre lo lo relativo (en oposición a fundamental) del papel de la máxima verosimilitud (y de la estadística puntual, en sentido lato) cuando la estadística deja de ser un fin en sí mismo y se inserta en un proceso más amplio que implica la toma de decisiones óptimas.

Se trata de un ejemplo pensado para ser desarrollado en una clase. Consiste en un juego en el que el profesor muestra a los alumnos un bote con monedas y les propone que traten de acertar su número exacto. En tal caso, los alumnos se la quedan y pueden repartirse el contenido.