Estadística

Exigencias aisladas de rigor (estadístico)

I.

Puede que alguien no conozca todavía el concepto de exigencias aisladas de rigor (estadístico). Lo introdujo y describió Scott Alexander aquí.

Usufructo y resumo el ejemplo con el que lo introduce:

  1. Heráclito decía aquello de que uno no puede bañarse dos veces en el mismo río (porque el agua ya no es la misma, etc.)
  2. Heráclito tenía unas vacas.
  3. Un señor se las roba.
  4. Heráclito las reclama.
  5. El señor le dice que las vacas que eran suyas (de Heráclito) ya no existen; que las que dizque ha robado eran otras distintas que andaban solas por ahí, que las encontró y se las llevó a su casa.

No sabemos hasta dónde pudo llegar el rigor filosófico y la coherencia de Heráclito. La fabulilla anterior da a entender que, probablemente, no demasiado lejos.

Probabilidad y estadística en los Ig Nobel de 2024

Los premios Ig Nobel de este año se han anunciado (y entregado) recientemente. Dos de ellos guardan cierta relación con el asunto de estas páginas:

  1. El de demografía ha recaído en Saul Justin Newman, de la universidad de Oxford, por mostrar cómo muchos de los casos de ultracentenarios (personas que viven hasta edades significativamente por encima de los cien) ocurren realmente en lugares donde la esperanza de vida no es particularmente alta, no hay certificados de nacimiento y abundan los errores administrativos y el fraude en las pensiones. De hecho, en esta entrevista afirma cosas tan entretenidas como que en Okinawa, el mejor predictor del lugar donde residen los ultracentenarios es que el registro civil del municipio en cuestión hubiese sido destruido por los bombardeos estadounidenses en la II Guerra Mundial.
  2. El de probabilidad, en un equipo de 50 investigadores por el artículo Fair coins tend to land on the same side they started: Evidence from 350,757 flips, cuyo título lo dice todo.

El artículo busca la confirmación de resultados anunciados por Persi Diaconis y sus coautores en un artículo que ya mencioné hace años aquí. Puede que a alguien le parezca ridículo e inaudito realizar un experimento consistente en lanzar monedas un total de 350757 veces; pero hay que recordar que el primer problema de estadística que conste documentalmente que se resolvió usando p-valores fue el de determinar si había sesgos en doce dados que se lanzaron 26306 veces allá en 1900 (véase esto).

Comparaciones vs efectos y cuatro asuntos más

Aquí se lee:

Preferimos el término “comparaciones” al de “efectos” en tanto que el primero es más general que el segundo. Una comparación es un efecto solo en aquellos casos en los que el modelo tiene una interpretación causal válida.

En Intrumental variable regression and machine learning se discute cómo aplicar la técnica de las variables instrumentales no con regresiones lineales sino con otro tipo de modelos más generales (y se ilustra con random forests).

"El problema de la academia" y cuatro asuntos más

I.

Aquí dice lo que con mi traducción suena así:

El problema de la academia no es el plagiarismo. En economía, un secreto que la academia guarda celosamente es que casi toda la investigación es inválida o inútil por varios motivos.

¿Qué hacer? No leer.

II.

¿Y en estadística? Aquí se cita la frase

Gran parte de la estadística del siglo XX es una pérdida de tiempo consistente en calcular respuestas precisas a preguntas irrelevantes.

Manipulación y discriminación

I.

Hace unos años, en un congreso de R, hubo un panel de periodistas de datos. En la ronda de preguntas, alguien del público preguntó: “¿cómo manipuláis los datos?” Muy previsiblemente, los tres panelistas respondieron respodieron rápida y destempladamente: “No manipulamos los datos”.

II.

Discriminar —es decir, separar una masa en unidades homogéneas— es una de las tareas tradicionales de la estadística. La técnica más básica y explícita de discriminación (el análisis discriminante lineal), fue introducida por Fisher entre 1936 y 1940 en una serie de artículos, de entre los cuales, el más famoso es The use of multiple measurements in taxonomic problems, publicado nada menos que en los Annals of Eugenics, y en cuya segunda página aparece en toda su gloria y para la posteridad en famoso conjunto de datos iris.

¿De qué "forma" es que A causa B?

En muchos sitios se habla sobre cómo A causa B —o tiene un efecto de cierto tamaño sobre B—. Mucho menos se suele hablar de la forma de ese efecto. El siguiente gráfico (extraído de aquí) muestra ocho de las infinitas formas en que una variable puede tener un efecto sobre otra:

En todas ellas, el efecto global tiene el mismo valor medio.

Los corolarios los dejo para cada cual.

Aún más sobre la falacia ecológica

I.

Voy a retomar un hilo perdido en mi discusión del otro día sobre la falacia ecológica para abundar en una cuestión que tiende a obviarse a pesar de su gran importancia.

En aquella entrada fusilé/usufructé el siguiente gráfico:

En él se representan individuos (las elipses de colores) sobre los que hay medidas repetidas (las nubes de puntos que contienen) de cierto fenómeno cuantitativo. Lo relevante del gráfico es que:

Más sobre la falacia ecológica

El de la falacia ecológica es un asunto que ya he tratado en alguna ocasión. Lo retomo porque he encontrado una exposición excelente sobre el concepto de la que esta entrada es prácticamente un plagio.

Primero discute la historia del término. Se tiende a atribuir —yo también lo hice aquí— a W. S. Robinson en su artículo Ecological Correlations and the Behavior of Individuals. No obstante, parece que el término propiamente dicho es algo posterior: fue Hanan C. Selvin quien lo denominó falacia ecológica —con todas sus letras— en su artículo Durkheim’s Suicide and Problems of Empirical Research de 1958. Además, según la entrada que gloso, el concepto ya había sido tratado específicamente por E. L. Thorndike en su artículo de 1939 On the fallacy of imputing the correlations found for groups to the individuals or smaller groups composing them. No obstante, dada la ubicuidad de la falacia, apostaría bastante a que no costaría demasiado dar con otros precedentes (¿se puede decir precedentes previos sin que te riña Lázaro Carreter?).

Algunas notas sobre los CIs

I.

Supongamos que $\theta$ es un parámetro real. John D. Cook le construye el siguiente intervalo del confianza al 95%:

  • Se toma un dado de 20 caras (como los de rol).
  • Si sale un 1, el intervalo de confianza es el conjunto vacío.
  • Si sale cualquier otro valor, el intervalo de confianza es el eje real entero.

Es tan perfectamente válido (desde el punto de vista frecuentista) como cualquier otro.

II.

La mejor manera que he encontrado para entender qué es un intervalo de confianza frecuentista es el de una urna enorme.

Las ANOVAs tienen interés meramente histórico

Todo eso que se conoce como ANOVA tiene, a lo más, interés histórico. Se puede hacer más y mejor con igual o menor esfuezo. ¿Cómo? Aplicando lo que se cuenta aquí.

Nota: Interés histórico no significa no interés: muchas veces existe un solapamiento importante entre el orden histórico de los conceptos y el orden en que es más natural aprenderlos (o enseñarlos).

modelplotr

R

Si leéis algo y tropezáis con un gráfico como

es que lo que lo rodea vale la pena. En este caso, lo que lo rodea es este texto que algún LLM me ha resumido así:

  • El texto analiza la importancia de evaluar el valor comercial de los modelos predictivos y las limitaciones de las métricas de evaluación tradicionales como la curva ROC.
  • Presenta cuatro gráficos de evaluación (ganancias acumuladas, elevación acumulada, respuesta y respuesta acumulada) y tres gráficos financieros (costos e ingresos, ganancias y retorno de la inversión) que pueden ayudar a explicar el valor comercial de un modelo.
  • El texto proporciona ejemplos de cómo utilizar el paquete R modelplotr para crear estos gráficos.

Errores en modelos. Zillow. Control de alquileres.

I. Errores en modelos

A menudo he usado

plot(cars$speed, cars$dist)
abline(lm(dist ~ speed, data = cars), col = "red")

con el que se crea la requetemanida gráfica

útil para ilustrar aspectos relacionados con el ajuste de modelos. Hoy, toca de nuevo.

Salvo que uno haga cosas muy extravagantes, los errores de un modelo están tanto por arriba como por debajo de la predicción. De hecho, en una amplia clase de modelos $\sum_i e_i =0$ en entrenamiento y, usualmente, la suma de los errores no debe de quedar muy lejos de cero tampoco en validación (y en el mundo real). Uno puede casi siempre decir: unas veces me quedaré corto; otras largo y la ley de los grandes números me da ciertas garantías de que lo dado compensará lo servido en el largo plazo.

Sobre el muy necesario "Rolling Journal of Sociology"

I.

El ordenador —de sobremesa— con el que trabajo habitualmente está más cerca de los diez que de los cinco años. Desde que lo compré ha avanzado la tecnología y soy consciente de que uno nuevo podría facilitarme cierto tipo de tareas. Pero para el 99% de ellas, con lo que tengo, vale. Cambiar me costaría tiempo y dinero. Me da pereza. Realmente, puedo hacer todo lo que necesito con este i5-6400 de 64GB de RAM DDR3-2133.