Redes Bayesianas

Esta es la tercera entrada de la serie sobre diagramas causales hiperbásicos, que, como la segunda, no se entenderá sin —y remito a— la primera que define el contexto, objetivo e hipótesis subyacentes de la serie completa. Además, sería conveniente haber leído la segunda.

Esta vez, el diagrama causal es una pequeña modificación del de la anterior:

Ahora, la variable $X$ influye sobre $Y$ por dos vías: directamente y a través de $Z$. Variables como $Z$, conocidas como mediadores son muy habituales. Uno podría pensar que, realmente, ninguna $X$ actúa directamente sobre ninguna $Y$ sino a través de una serie de mecanismos que involucran a variables intermedias $Z_1, \dots, Z_n$ que constituyen una cadena causal. Puede incluso que se desencadenen varias de estas cadenas causales que transmitan a $Y$ la potencia de $X$. Que hablemos de la influencia causal de $X$ sobre $Y$ es casi siempre una hipersimplificación de la realidad.

Esta es la segunda entrada de la serie sobre diagramas causales hiperbásicos. No se entenderá sin —y remito a— la entrada anterior que define el contexto, objetivo e hipótesis subyacentes de la serie completa.

El diagrama causal objeto de esta entrada es apenas una arista más complejo que el de la anterior:

Ahora la variable $Z$ afecta tanto a $Y$ (como en la entrada anterior) como a $X$ (esta es la novedad). Es una situación muy común en el análisis de datos. Algunos ejemplos:

Comienzo hoy una serie de cuatro entradas (¡creo!) sobre diagramas causales supersimples que involucran a tres variables aleatorias: $X$, $Y$ y $Z$. En todos los casos, estaré argumentaré alrededor de en las regresiones lineales Y ~ X e Y ~ X + Z porque nos permiten leer, interpretar y comparar rápida y familiarmente los resultados obtenidos. En particular, me interesará la estimación del efecto (causal, si se quiere) de $X$ sobre $Y$, identificable a través del coeficiente de $X$ en las regresiones. No obstante, quiero dejar claro que:

Por diversos motivos que no vienen al caso pero entre los que se cuentan lo frágil de mi voluntad, he acabado renunciado a renunciar a publicar material en YouTube. Así que he creado un canal (ilustrado por los archifamosísimos dados del perínclito Fomenko) y he publicado el que no cabe duda que será el primero de una larga y exitosa cadena de vídeos:

Tengo algunas ideas en mente con el que alimentar el canal de contenido que será del gusto de las masas ilustradas y que el tiempo irá desvelando en su debido momento.

a: eres listo
b: has estudiao
c: la nota del examen

Se supone que a y b son independientes. Pero conocido c, dejan de serlo (saber que eres listo y que has suspendido nos dice que…).

Esto no es exactamente pero se parece a (o, más bien, es un caso que generaliza) la llamada Paradoja de Bergson, de la que hablé hace unos años.

Frecuentemente nos interesan unos efectos (E), tales como:

Si un sujeto cumplirá con los términos de una hipoteca.
Si un paciente responderá a un tratamiento.
Si un adlátere circunstancial en el tren nos regalará una conversación amena.
Si un transeúnte podrá o no darnos fuego para prender un cigarro.
Si un individuo es o no un criminal.
Si un candidato será o no un trabajador productivo en una empresa.
Etc.

Son variables aleatorias. En ciertos casos, si no todos, se puede suponer que estos efectos dependen de determinados factores lantentes (L). Y se puede crear una red bayesiana similar a esta:

Una red bayesiana es algo de lo que ya hablé (y que me está volviendo a interesar mucho últimamente). En esencia, es un modelo probabilístico construido sobre un grafo dirigido acíclico.

Que, a su vez, es algo parecido a

que es un grafo (obviamente), dirigido (tiene flechas) y acíclico porque siguiéndolas no se llega nunca al punto de partida. Se puede construir modelos probabilísticos sobre ellos. Basta con definir para cada nodo $latex x$ la probabilidad condicional $latex P(x|A(x))$, donde $latex A(x)$ son sus padres directos. Con estas probabilidades condicionales (y un poco de esfuerzo) se puede construir la función de probabilidad completa, $latex P(x_1, \dots, x_n)$.

La red Asia es esto:

Es decir, una red bayesiana. Una red bayesiana clásica sobre la que los interesados podrán saber más leyendo lo que Lauritzen y Spiegelhalter dejaron escrito sobre ella en 1988.

Pero la idea básica es la siguiente:

Los nodos superiores (visita a Asia, fumador) son variables observables sobre el comportamiento de unos pacientes.
Los nodos inferiores (rayos X, disnea) son variables también observables, síntomas de esos pacientes.
Los nodos centrales, los más importantes, no son observables: son diversas enfermedades que pudieran estar padeciendo los individuos en cuestión.

La pregunta que ayuda a resolver esta red bayesiana es la siguiente: conocidas (¡o no!) las variables observadas, ¿cuál es la probabilidad de que un paciente dado padezca alguna de las enfermedades (tuberculosis, bronquitis o cáncer de pulmón) correspondientes a los nodos centrales?

Redes Bayesianas

Diagramas causales hiperbásicos (III): mediadores

Diagramas causales hiperbásicos (II): ¿qué significa "controlar por" una variable?

Diagramas causales hiperbásicos (I): variables omitidas y sus consecuencias

Allanando el camino a Andorra (aka he publicado mi primer vídeo en YouTube)

Más sobre la paradoja de Berkson

Decisiones bajo incertidumbre (I)

Naive Bayes como red bayesiana

La red Asia