Estadística

Manipulacíón y discriminación

I. Hace unos años, en un congreso de R, hubo un panel de periodistas de datos. En la ronda de preguntas, alguien del público preguntó: “¿cómo manipuláis los datos?” Muy previsiblemente, los tres panelistas respondieron respodieron rápida y destempladamente: “No manipulamos los datos”. II. Discriminar —es decir, separar una masa en unidades homogéneas— es una de las tareas tradicionales de la estadística. La técnica más básica y explícita de discriminación (el análisis discriminante lineal), fue introducida por Fisher entre 1936 y 1940 en una serie de artículos, de entre los cuales, el más famoso es The use of multiple measurements in taxonomic problems, publicado nada menos que en los Annals of Eugenics, y en cuya segunda página aparece en toda su gloria y para la posteridad en famoso conjunto de datos iris.

¿De qué "forma" es que A causa B?

En muchos sitios se habla sobre cómo A causa B —o tiene un efecto de cierto tamaño sobre B—. Mucho menos se suele hablar de la forma de ese efecto. El siguiente gráfico (extraído de aquí) muestra ocho de las infinitas formas en que una variable puede tener un efecto sobre otra: En todas ellas, el efecto global tiene el mismo valor medio. Los corolarios los dejo para cada cual.

La regla de Edlin

La llamada regla de Edlin es un principio epistemológico que dice, simplemente, que uno tiene que rebajar —o multiplicar por un factor menor que 1, el llamado factor de Edlin— las estimaciones que uno ve publicadas. Para más información, esto.

¿Cuántas copias vende un libro?

Es muy difícil saber cuántas copias vende un libro. Lo es por muchos motivos: Porque no está claro qué es un libro: una misma obra puede tener muchos ISBNs distintos. No hace falta pensar solo en El Quijote: incluso obras modernas pueden tener varios ISBNs según se trate de la versión electrónica, tapa dura, tapa blanda, etc. Porque no está claro qué cosa es una venta o qué significa siquiera “libro publicado” (véase esto).

¿Redujo el covid la esperanza de vida en 2020? No y sí, según se mire.

I. La esperanza de vida en 2020 es el número de años que en promedio vivirá un crío nacido ese año. El problema de esa definición estriba en que para calcularla rectamente habría que esperar hasta, no sé, 2140, para: Contar el número N de nacidos en 2020. Calcular la suma $\sum_i x_i$ de las edades a las que fallecieron (suponiendo que en 2140 ya hayan muerto todos). Dividir la segunda de las cifras por la primera.

Aún más sobre la falacia ecológica

I. Voy a retomar un hilo perdido en mi discusión del otro día sobre la falacia ecológica para abundar en una cuestión que tiende a obviarse a pesar de su gran importancia. En aquella entrada fusilé/usufructé el siguiente gráfico: En él se representan individuos (las elipses de colores) sobre los que hay medidas repetidas (las nubes de puntos que contienen) de cierto fenómeno cuantitativo. Lo relevante del gráfico es que:

Más sobre la falacia ecológica

El de la falacia ecológica es un asunto que ya he tratado en alguna ocasión. Lo retomo porque he encontrado una exposición excelente sobre el concepto de la que esta entrada es prácticamente un plagio. Primero discute la historia del término. Se tiende a atribuir —yo también lo hice aquí— a W. S. Robinson en su artículo Ecological Correlations and the Behavior of Individuals. No obstante, parece que el término propiamente dicho es algo posterior: fue Hanan C.

Estadística: lo general y lo particular

No hay que perder de vista la etimología de la palabra estadística: viene de estado. La estadística es particularmente útil si eres el ministro de algo. Pero los más no lo somos. Los más nos enfrentamos a problemas como los que describo a continuación. 1. Cito de Gelman: Hay un conflicto entre dos principios de la medicina basada en evidencia: (1) la dependencia de estimaciones estadísticamente significativas de ensayos controlados y (2) la toma de decisiones para pacientes individuales.

Algunas notas sobre los CIs

I. Supongamos que $\theta$ es un parámetro real. John D. Cook le construye el siguiente intervalo del confianza al 95%: Se toma un dado de 20 caras (como los de rol). Si sale un 1, el intervalo de confianza es el conjunto vacío. Si sale cualquier otro valor, el intervalo de confianza es el eje real entero. Es tan perfectamente válido (desde el punto de vista frecuentista) como cualquier otro.

Las ANOVAs tienen interés meramente histórico

Todo eso que se conoce como ANOVA tiene, a lo más, interés histórico. Se puede hacer más y mejor con igual o menor esfuezo. ¿Cómo? Aplicando lo que se cuenta aquí. Nota: Interés histórico no significa no interés: muchas veces existe un solapamiento importante entre el orden histórico de los conceptos y el orden en que es más natural aprenderlos (o enseñarlos).

¿Cómo se interpretan los resultados de estas regresiones

Esta entrada trata sobre las aparentes contradicciones que surgen cuando se comparan las regresiones $y \sim x$ y $x \sim y$. En particular, aqui se muestran y que vienen a decir: El tal Rodgers rinde por encima de lo que se espera para su salario. Para lo que rinde, gana demasiado. Lo cual, a pesar de lo contradictorio, no es un fenómeno extrañísimo. Si uno hace n <- 100 x <- rnorm(n) a <- .

Errores en modelos. Zillow. Control de alquileres.

I. Errores en modelos A menudo he usado plot(cars$speed, cars$dist) abline(lm(dist ~ speed, data = cars), col = "red") con el que se crea la requetemanida gráfica útil para ilustrar aspectos relacionados con el ajuste de modelos. Hoy, toca de nuevo. Salvo que uno haga cosas muy extravagantes, los errores de un modelo están tanto por arriba como por debajo de la predicción. De hecho, en una amplia clase de modelos $\sum_i e_i =0$ en entrenamiento y, usualmente, la suma de los errores no debe de quedar muy lejos de cero tampoco en validación (y en el mundo real).

Los modelos bayesianos, ¿condenados a sobreajustar?

Por ese micromundo en el que muevo, circuló recientemente una polémica sobre si los métodos bayesianos sobreajustan necesaria e irremisiblemente. El desencadenante fue la publicación Bayes is guaranteed to overfit, for any model, any prior, and every data point en la que el autor sostiene que, efectivamente: Tiene sentido hablar de sobreajuste en modelos bayesianos (a diferencia de lo que sostienen otros en tanto que como los modelos bayesianos no maximizan ninguna función objetivo, no ha lugar siquiera hablar de sobreajuste).