Estadística

Comparaciones vs efectos y cuatro asuntos más

Aquí se lee: Preferimos el término “comparaciones” al de “efectos” en tanto que el primero es más general que el segundo. Una comparación es un efecto solo en aquellos casos en los que el modelo tiene una interpretación causal válida. En Instrumental variable regression and machine learning se discute cómo aplicar la técnica de las variables instrumentales no con regresiones lineales sino con otro tipo de modelos más generales (y se ilustra con random forests). ...

"El problema de la academia" y cuatro asuntos más

I. Aquí dice lo que con mi traducción suena así: El problema de la academia no es el plagiarismo. En economía, un secreto que la academia guarda celosamente es que casi toda la investigación es inválida o inútil por varios motivos. ¿Qué hacer? No leer. II. ¿Y en estadística? Aquí se cita la frase Gran parte de la estadística del siglo XX es una pérdida de tiempo consistente en calcular respuestas precisas a preguntas irrelevantes. ...

Manipulación y discriminación

I. Hace unos años, en un congreso de R, hubo un panel de periodistas de datos. En la ronda de preguntas, alguien del público preguntó: “¿cómo manipuláis los datos?” Muy previsiblemente, los tres panelistas respondieron rápida y destempladamente: “No manipulamos los datos”. II. Discriminar —es decir, separar una masa en unidades homogéneas— es una de las tareas tradicionales de la estadística. La técnica más básica y explícita de discriminación (el análisis discriminante lineal), fue introducida por Fisher entre 1936 y 1940 en una serie de artículos, de entre los cuales, el más famoso es The use of multiple measurements in taxonomic problems, publicado nada menos que en los Annals of Eugenics, y en cuya segunda página aparece en toda su gloria y para la posteridad el famoso conjunto de datos iris. ...

¿De qué "forma" es que A causa B?

En muchos sitios se habla sobre cómo A causa B —o tiene un efecto de cierto tamaño sobre B—. Mucho menos se suele hablar de la forma de ese efecto. El siguiente gráfico (extraído de aquí) muestra ocho de las infinitas formas en que una variable puede tener un efecto sobre otra: En todas ellas, el efecto global tiene el mismo valor medio. Los corolarios los dejo para cada cual.

Aún más sobre la falacia ecológica

I. Voy a retomar un hilo perdido en mi discusión del otro día sobre la falacia ecológica para abundar en una cuestión que tiende a obviarse a pesar de su gran importancia. En aquella entrada fusilé/usufructé el siguiente gráfico: En él se representan individuos (las elipses de colores) sobre los que hay medidas repetidas (las nubes de puntos que contienen) de cierto fenómeno cuantitativo. Lo relevante del gráfico es que: ...

Más sobre la falacia ecológica

El de la falacia ecológica es un asunto que ya he tratado en alguna ocasión. Lo retomo porque he encontrado una exposición excelente sobre el concepto de la que esta entrada es prácticamente un plagio. Primero discute la historia del término. Se tiende a atribuir —yo también lo hice aquí— a W. S. Robinson en su artículo Ecological Correlations and the Behavior of Individuals. No obstante, parece que el término propiamente dicho es algo posterior: fue Hanan C. Selvin quien lo denominó falacia ecológica —con todas sus letras— en su artículo Durkheim’s Suicide and Problems of Empirical Research de 1958. Además, según la entrada que gloso, el concepto ya había sido tratado específicamente por E. L. Thorndike en su artículo de 1939 On the fallacy of imputing the correlations found for groups to the individuals or smaller groups composing them. No obstante, dada la ubicuidad de la falacia, apostaría bastante a que no costaría demasiado dar con otros precedentes (¿se puede decir precedentes previos sin que te riña Lázaro Carreter?). ...

Algunas notas sobre los CIs

I. Supongamos que $\theta$ es un parámetro real. John D. Cook le construye el siguiente intervalo de confianza al 95%: Se toma un dado de 20 caras (como los de rol). Si sale un 1, el intervalo de confianza es el conjunto vacío. Si sale cualquier otro valor, el intervalo de confianza es el eje real entero. Es tan perfectamente válido (desde el punto de vista frecuentista) como cualquier otro. II. La mejor manera que he encontrado para entender qué es un intervalo de confianza frecuentista es el de una urna enorme. ...

Las ANOVAs tienen interés meramente histórico

Todo eso que se conoce como ANOVA tiene, a lo más, interés histórico. Se puede hacer más y mejor con igual o menor esfuerzo. ¿Cómo? Aplicando lo que se cuenta aquí. Nota: Interés histórico no significa no interés: muchas veces existe un solapamiento importante entre el orden histórico de los conceptos y el orden en que es más natural aprenderlos (o enseñarlos).

modelplotr

Si leéis algo y tropezáis con un gráfico como es que lo que lo rodea vale la pena. En este caso, lo que lo rodea es este texto que algún LLM me ha resumido así: El texto analiza la importancia de evaluar el valor comercial de los modelos predictivos y las limitaciones de las métricas de evaluación tradicionales como la curva ROC. Presenta cuatro gráficos de evaluación (ganancias acumuladas, elevación acumulada, respuesta y respuesta acumulada) y tres gráficos financieros (costos e ingresos, ganancias y retorno de la inversión) que pueden ayudar a explicar el valor comercial de un modelo. El texto proporciona ejemplos de cómo utilizar el paquete R modelplotr para crear estos gráficos.

Errores en modelos. Zillow. Control de alquileres.

I. Errores en modelos A menudo he usado plot(cars$speed, cars$dist) abline(lm(dist ~ speed, data = cars), col = "red") con el que se crea la requetemanida gráfica útil para ilustrar aspectos relacionados con el ajuste de modelos. Hoy, toca de nuevo. Salvo que uno haga cosas muy extravagantes, los errores de un modelo están tanto por arriba como por debajo de la predicción. De hecho, en una amplia clase de modelos $\sum_i e_i =0$ en entrenamiento y, usualmente, la suma de los errores no debe de quedar muy lejos de cero tampoco en validación (y en el mundo real). Uno puede casi siempre decir: unas veces me quedaré corto; otras, largo; pero la ley de los grandes números me da ciertas garantías de que lo dado compensará lo servido en el largo plazo. ...