Doxa, episteme y gnosis: una reinterpretación bayesiana

Dícese que los griegos distinguían tres (cuando menos) tipos de conocimiento: Doxa: o aquello que conocemos porque nos lo han contado, sea en Twitter o en arXiv. Gnosis: o aquello que conocemos por la experiencia personal, a través de los sentidos o, supongo que hoy en día, también a través de instrumentos de medida diversos. Episteme: o aquello que decimos saber porque hemos razonado y tenemos ciertas garantías de su veracidad.

¿Por qué no funcionan las intervenciones buenistas?

El otro día, en mi entrada sobre la estadística en las ciencias blandengues, me cité el ensayo Nothing Scales del que extraje el parrafito But trying to analyze this is very rare, which is a disaster for social science research. Good empirical social science almost always focuses on estimating a causal relationship: what is β in Y = α + βX + ϵ? But these relationships are all over the place: there is no underlying β to be estimated!

Un experimento físico (y su relación con la causalidad) (II)

En esta entrada es continuación y discusión de la primera de la serie. En esta se va a discutir su relevancia en la discusión sobre lo que es la causalidad más allá de las técnicas que puedan existir para identificar y medir el tamaño de los efectos una vez que la causalidad está postulada. Comenzaré haciendo notar una obviedad: el concepto de causalidad es ajeno a las matemáticas. Los hechos matemáticos no tienen causas sino razones o explicaciones.

Nuevo vídeo en YouTube: "Causalidad: una charla con Carlos M. Madrid Casado"

Esta semana he tenido el placer y el honor de tener como invitado en mi canal a Carlos M. Madrid Casado para discutir el manido y usualmente maltratado tema de la causalidad. Lo hemos hecho desde varias perspectivas: la estadística, por supuesto; la de otras disciplinas con las que la estadística interactúa habitualmente, como la medicina, la física o la economía; y, finalmente, desde la filosófica, por ver qué se puede aportar desde esas coordenadas al asunto.

Un experimento físico (y su relación con la causalidad) (I)

En esta entrada voy a plantear y explicar el resultado de un experimento físico. Dejo para la siguiente la discusión de su relevancia para la discusión de la causalidad ya no tanto desde el punto de cuantificarla una vez postulada sino de su misma naturaleza. El experimento —que aunque es físico, habrá de ser mental— es el siguiente: se toma un haz de palillos y se lanza hacia arriba de manera que los palillos roten en cualquier dirección, al azar.

La infradispersión como indicio de fraude

Hay gente que colecciona sellos, monedas, etc. Yo, fenómenos que presentan infradispersión manifiesta. La infradispersión es un fenómeno raro, mucho más infrecuente que la sobredispersión, del que ya me he ocupado previamente. Frecuentemente, la infradispersión se da porque se busca, como aquí. A veces, la infradispersión se da porque se comete un fraude y la gente que lo comete es un poco… gañana. Hay un ejemplo aquí que se refiere a ciertas elecciones en, cómo no, Rusia.

Diagramas causales hiperbásicos (III): mediadores

Esta es la tercera entrada de la serie sobre diagramas causales hiperbásicos, que, como la segunda, no se entenderá sin —y remito a— la primera que define el contexto, objetivo e hipótesis subyacentes de la serie completa. Además, sería conveniente haber leído la segunda. Esta vez, el diagrama causal es una pequeña modificación del de la anterior: Ahora, la variable $X$ influye sobre $Y$ por dos vías: directamente y a través de $Z$.

Diagramas causales hiperbásicos (II): ¿qué significa "controlar por" una variable?

Esta es la segunda entrada de la serie sobre diagramas causales hiperbásicos. No se entenderá sin —y remito a— la entrada anterior que define el contexto, objetivo e hipótesis subyacentes de la serie completa. El diagrama causal objeto de esta entrada es apenas una arista más complejo que el de la anterior: Ahora la variable $Z$ afecta tanto a $Y$ (como en la entrada anterior) como a $X$ (esta es la novedad).

Sobre la sistemática infraestimación del error en las encuestas

Las encuestas que se publican suelen estar acompañadas de una ficha técnica en la que, entre otras cosas, se especifica el error muestral. El error muestral está relacionado con la posibilidad de que la muestra no represente fidedignamente la población de interés, que tenga un sesgo producto exclusivamente del azar. Es decir, ignora el resto de los posibles sesgos que tengan una causa distinta. Pero aquellas que recaban opiniones, etc. de personas humanas suelen dar por hecho que los datos recogidos de los sujetos muestrales son ciertos.

Diagramas causales hiperbásicos (I): variables omitidas y sus consecuencias

Comienzo hoy una serie de cuatro entradas (¡creo!) sobre diagramas causales supersimples que involucran a tres variables aleatorias: $X$, $Y$ y $Z$. En todos los casos, estaré argumentaré alrededor de en las regresiones lineales Y ~ X e Y ~ X + Z porque nos permiten leer, interpretar y comparar rápida y familiarmente los resultados obtenidos. En particular, me interesará la estimación del efecto (causal, si se quiere) de $X$ sobre $Y$, identificable a través del coeficiente de $X$ en las regresiones.

Estadística en las ciencias blandas

Voy a comenzar con una simulación inofensiva, set.seed(1) n <- 10000 sigma <- .1 x <- runif(n) # coeficientes: indep <- -1 b_0 <- .5 # variable objetivo: error <- rnorm(n, 0, sigma) y_0 <- indep + x * b_0 + error # modelo: modelo_0 <- lm(y_0 ~ x) summary(modelo_0) que da como resultado Call: lm(formula = y_0 ~ x) Residuals: Min 1Q Median 3Q Max -0.42844 -0.06697 -0.00133 0.06640 0.

"Proxys": error y sesgo en modelos lineales

El otro día publiqué un minihilo en Twitter que terminaba con una encuesta. Proponía el siguiente problema: Quiero, abusando del lenguaje, estimar el efecto de $x$ sobre $y$ usando el modelo lineal clásico $y = a_0 + a_1 x + \epsilon_1$. Pero no puedo medir $x$ con precisión. Solo tengo una medida ruidosa/aproximada de $x$, $z = x + \eta$, donde $\eta$ es normal, independiente de $\epsilon_1$, etc. Uso el modelo $y = b_0 + b_1 z + \epsilon_2$.

Usos de la versión barata de la entropía

Aquí argumenté que $$\sum_i p^2_i$$ es una versión barata de la entropía. Que sin embargo se usa para: Medir la concentración empresarial: es el que los economistas llaman índice de Hirschman. Crear el llamado número efectivo de partidos en ciencias políticas (a través de su inverso). La versión barata de la entropía tiene una ventaja y una desventaja con respecto a la buena; la ventaja, que es más fácil de calcular, comunicar, etc.