Estadística

I.

Hace unos años, en un congreso de R, hubo un panel de periodistas de datos. En la ronda de preguntas, alguien del público preguntó: “¿cómo manipuláis los datos?” Muy previsiblemente, los tres panelistas respondieron respodieron rápida y destempladamente: “No manipulamos los datos”.

II.

Discriminar —es decir, separar una masa en unidades homogéneas— es una de las tareas tradicionales de la estadística. La técnica más básica y explícita de discriminación (el análisis discriminante lineal), fue introducida por Fisher entre 1936 y 1940 en una serie de artículos, de entre los cuales, el más famoso es The use of multiple measurements in taxonomic problems, publicado nada menos que en los Annals of Eugenics, y en cuya segunda página aparece en toda su gloria y para la posteridad en famoso conjunto de datos iris.

En muchos sitios se habla sobre cómo A causa B —o tiene un efecto de cierto tamaño sobre B—. Mucho menos se suele hablar de la forma de ese efecto. El siguiente gráfico (extraído de aquí) muestra ocho de las infinitas formas en que una variable puede tener un efecto sobre otra:

En todas ellas, el efecto global tiene el mismo valor medio.

Los corolarios los dejo para cada cual.

La llamada regla de Edlin es un principio epistemológico que dice, simplemente, que uno tiene que rebajar —o multiplicar por un factor menor que 1, el llamado factor de Edlin— las estimaciones que uno ve publicadas.

Para más información, esto.

Es muy difícil saber cuántas copias vende un libro. Lo es por muchos motivos:

Porque no está claro qué es un libro: una misma obra puede tener muchos ISBNs distintos. No hace falta pensar solo en El Quijote: incluso obras modernas pueden tener varios ISBNs según se trate de la versión electrónica, tapa dura, tapa blanda, etc.
Porque no está claro qué cosa es una venta o qué significa siquiera “libro publicado” (véase esto).
Porque hay motivos económicos para que esos números estén poco claros (véase esto).
Seguro, además, que los expertos en el sector pueden apuntar motivos adicionales.

Pero el que interesa en este blog es uno que enlaza con lo escrito la semana pasada sobre la esperanza de vida:

I.

La esperanza de vida en 2020 es el número de años que en promedio vivirá un crío nacido ese año.

El problema de esa definición estriba en que para calcularla rectamente habría que esperar hasta, no sé, 2140, para:

Contar el número N de nacidos en 2020.
Calcular la suma $\sum_i x_i$ de las edades a las que fallecieron (suponiendo que en 2140 ya hayan muerto todos).
Dividir la segunda de las cifras por la primera.

Y no, no es factible esperar 120 años en publicar una estadística. Ni siquiera para el INE.

I.

Voy a retomar un hilo perdido en mi discusión del otro día sobre la falacia ecológica para abundar en una cuestión que tiende a obviarse a pesar de su gran importancia.

En aquella entrada fusilé/usufructé el siguiente gráfico:

En él se representan individuos (las elipses de colores) sobre los que hay medidas repetidas (las nubes de puntos que contienen) de cierto fenómeno cuantitativo. Lo relevante del gráfico es que:

El de la falacia ecológica es un asunto que ya he tratado en alguna ocasión. Lo retomo porque he encontrado una exposición excelente sobre el concepto de la que esta entrada es prácticamente un plagio.

Primero discute la historia del término. Se tiende a atribuir —yo también lo hice aquí— a W. S. Robinson en su artículo Ecological Correlations and the Behavior of Individuals. No obstante, parece que el término propiamente dicho es algo posterior: fue Hanan C. Selvin quien lo denominó falacia ecológica —con todas sus letras— en su artículo Durkheim’s Suicide and Problems of Empirical Research de 1958. Además, según la entrada que gloso, el concepto ya había sido tratado específicamente por E. L. Thorndike en su artículo de 1939 On the fallacy of imputing the correlations found for groups to the individuals or smaller groups composing them. No obstante, dada la ubicuidad de la falacia, apostaría bastante a que no costaría demasiado dar con otros precedentes (¿se puede decir precedentes previos sin que te riña Lázaro Carreter?).

No hay que perder de vista la etimología de la palabra estadística: viene de estado. La estadística es particularmente útil si eres el ministro de algo. Pero los más no lo somos. Los más nos enfrentamos a problemas como los que describo a continuación.

1.

Cito de Gelman:

Hay un conflicto entre dos principios de la medicina basada en evidencia: (1) la dependencia de estimaciones estadísticamente significativas de ensayos controlados y (2) la toma de decisiones para pacientes individuales. No hay forma de llegar al paso 2 sin ir más allá del paso 1.

I.

Supongamos que $\theta$ es un parámetro real. John D. Cook le construye el siguiente intervalo del confianza al 95%:

Se toma un dado de 20 caras (como los de rol).
Si sale un 1, el intervalo de confianza es el conjunto vacío.
Si sale cualquier otro valor, el intervalo de confianza es el eje real entero.

Es tan perfectamente válido (desde el punto de vista frecuentista) como cualquier otro.

II.

La mejor manera que he encontrado para entender qué es un intervalo de confianza frecuentista es el de una urna enorme.

Todo eso que se conoce como ANOVA tiene, a lo más, interés histórico. Se puede hacer más y mejor con igual o menor esfuezo. ¿Cómo? Aplicando lo que se cuenta aquí.

Nota: Interés histórico no significa no interés: muchas veces existe un solapamiento importante entre el orden histórico de los conceptos y el orden en que es más natural aprenderlos (o enseñarlos).

Estadística

Manipulación y discriminación

I.

II.

¿De qué "forma" es que A causa B?

La regla de Edlin

¿Cuántas copias vende un libro?

¿Redujo el covid la esperanza de vida en 2020? No y sí, según se mire.

I.

Aún más sobre la falacia ecológica

I.

Más sobre la falacia ecológica

Estadística: lo general y lo particular

1.

Algunas notas sobre los CIs

I.

II.

Las ANOVAs tienen interés meramente histórico