Estadística

(Mis) procesos puntuales con glm

Lo que escribí hace un par de días sobre procesos puntuales, ahora me doy cuenta, podía haberse resuelto con nuestro viejo amigo glm.

Ejecuto el código del otro día y obtengo (para un caso nuevo)

          mu       alfa verosimilitud delta
    1  0.4493158 0.50000000      340.6141     1
    2  0.2675349 0.40457418      307.3939     2
    3  0.1894562 0.28917407      293.4696     3
    4  0.1495654 0.22237707      287.0784     4
    5  0.1243791 0.18079703      281.3900     5
    6  0.1142837 0.14913172      284.9227     6
    7  0.1217504 0.12150745      288.5448     7
    8  0.1214365 0.10424818      289.3282     8
    9  0.1204605 0.09148817      290.9081     9
    10 0.1315896 0.07857330      295.3935    10</code>

que significa que el parámetro óptimo es delta = 5, mu = 0.124 y alfa = 0.18.

Ahora hago

    cuantos.previos <- function(i, muestra, delta){
      indices <- Filter(function(x) x < i & x > i - delta, 1:n)
      cuantos <- sum(muestra[indices])
    }

    fit.glm <- function(delta){
      prev <- sapply(1:length(muestra),
                     cuantos.previos, muestra, delta)
      dat  <- data.frame(muestra = muestra, prev = prev)

      res.glm <- glm(muestra ~ prev, data = dat,
                     family = poisson(link = "identity"))
      c(delta, res.glm$coefficients, summary(res.glm)$aic)
    }

    res.glm <- sapply(1:10, fit.glm)
    res.glm <- as.data.frame(t(res.glm))
    colnames(res.glm) <- c("delta", "mu", "alfa", "aic")

y obtengo

Procesos puntuales: una primera aproximación

Tengo una serie de datos que se parecen a lo que cierta gente llama procesos puntuales y que se parecen a los que se introducen (muuuuy prolijamente) aquí. Gráficamente, tienen este aspecto:

proceso_puntual

Sobre un determinado periodo de tiempo (eje horizontal) suceden eventos y los cuento por fecha. Pero no suceden independientemente (como si generados por un proceso de Poisson) sino que tienden a agruparse: el que suceda un evento tiende a incrementar la probabilidad de que suceda otro poco después. El proceso, en una mala traducción, se autoexcita.

Procesos de Poisson no homogéneos: la historia de un fracaso

Partamos el tiempo en, p.e., días y contemos una serie de eventos que suceden en ellos. Es posible que esos recuentos se distribuyan según un proceso de Poisson de parámetro $latex \lambda$, que es un valor que regula la intensidad.

Si los días son homogéneos, i.e., no hay variaciones de intensidad diaria, estimar $latex \lambda$ (por máxima verosimilitud), es tan fácil como calcular la media de los sucesos por día. Pero puede suceder que la intensidad varíe en el tiempo (p.e., se reduzca los fines de semana). O que fluctúe de cualquier manera. O que haya periodos de gran intensidad y otros de calma. Es decir, que el proceso no sea homogéneo y que $latex \lambda$ varíe en el tiempo.

Naive Bayes como red bayesiana

Una red bayesiana es algo de lo que ya hablé (y que me está volviendo a interesar mucho últimamente). En esencia, es un modelo probabilístico construido sobre un grafo dirigido acíclico.

Que, a su vez, es algo parecido a

Directed_acyclic_graph

que es un grafo (obviamente), dirigido (tiene flechas) y acíclico porque siguiéndolas no se llega nunca al punto de partida. Se puede construir modelos probabilísticos sobre ellos. Basta con definir para cada nodo $latex x$ la probabilidad condicional $latex P(x|A(x))$, donde $latex A(x)$ son sus padres directos. Con estas probabilidades condicionales (y un poco de esfuerzo) se puede construir la función de probabilidad completa, $latex P(x_1, \dots, x_n)$.

Solo necesitarás estadística viejuna

El INE está realizando una convocatoria para cubrir varias plazas en el Cuerpo Superior de Estadísticos del Estado.

Si quieres presentarte mira el temario sobre el que te examinarán. Si no has estado al tanto de lo que ha ocurrido en el mundo de la estadística en los últimos 30 o 40 años o no sabes programar, no te preocupes: no entra.

Eso sí, si tienes diez publicaciones estadísticas de alto nivel en los temas relevantes… no te valen para nada. Si estudiaste en Columbia con Gelman o en Cambridge con Spiegelhalter, tampoco te va a valer de mucho lo que aprendiste con ellos.

Combinación de probabilidades

Hace unos días alguien me pasó una fórmula que tiene una pinta no muy distinta de

$$ p = \frac{p_1 p_2 \cdots p_N}{p_1 p_2 \cdots p_N + (1 - p_1)(1 - p_2) \cdots (1 - p_N)}$$

alegando que era una aplicación de métodos bayesianos (para estimar la probabilidad de algo combinando distintos indicios). Pero no está en mi libro (¿y en el tuyo?). El hilo (y varios correos) me condujeron a esto y de ahí, a través de referencias de referencias, a Combining Probabilities. Donde todo está muy bien explicado.

Incrementalidad via particionamiento recursivo basado en modelos

Planteas un modelo tal como resp ~ treat y no encuentras diferencia significativa. O incluso puede ser negativa. Globalmente.

La pregunta es, con el permiso del Sr. Simpson (o tal vez inspirados por él), ¿existirá alguna región del espacio en la que el tratamiento tiene un efecto beneficioso? Puede que sí. Y de haberla, ¿cómo identificarla?

De eso hablo hoy aquí. E incluyo una protorespuesta.

Primero, genero datos:

n  <- 20000
v1 <- sample(0:1, n, replace = T)
v2 <- sample(0:1, n, replace = T)
v3 <- sample(0:1, n, replace = T)

treat <- sample(0:1, n, replace = T)

y <- v1 + treat * v1 * v2
y <- exp(y) / (1 + exp(y))
y <- sapply(y, function(x) rbinom(1,1,x))

dat <- data.frame(
    y = y,
    treat = factor(treat), v1 = v1,
    v2 = v2, v3 = v3)

Como puede apreciarse, solo las variables v1 y v2 (y no v3) interaccionan con el tratamiento: solo en la región donde v1 = v1 = 1 el efecto del tratamiento es positivo.

Datos antes y después del PCA

El autor de una entrada que casi fusilo hoy no pudo resistirse. Me ha parecido tan estupenda que yo tampoco.

Con una imagen simboliza el aspecto de un conjunto de datos antes y después de aplicar una técnica de reducción de la dimensionalidad (PCA, pero podría ser otra). Es esta:

pca_antes_despues

A la izquierda, los datos originales. Con sus detalles y sus imperfecciones. A la derecha, los transformados, limpios de impurezas, con colores sólidos y trazos gruesos.

Dos descomposiciones positivas de tablas de contingencia

Voy a seguir poco a poco con este tema mío tan recurrente de las factorizaciones (aproximadas) positivas de matrices (también positivas). No escribo más porque, como casi todo lo que llamamos trabajo es, simplemente ruido, las cosas que llevan a otras nunca pasan por el asunto en cuestión.

Pero hay dos descomposiciones positivas de matrices positivas bien conocidas de todos. La primera es esta: $latex X=IX$, donde $latex X$ es una matriz de dimensión nxm e $latex I$ es la cosa más parecida a la matriz identidad de dicha dimensión. No aporta gran cosa. En particular, no compresión y no comprensión de la estructura de la matriz.

Lecturas disparatadas: la salud de los críos y el desempleo

Hay gente que en lugar de escribir cosas debería invertir su tiempo en leer otras. Pero como

  • no me hacen caso,
  • escribiendo cosillas escalan poquito a poco escalafones académicos y, encima,
  • lo pagamos los contribuyentes felizmente engatusados eso del oropel del I+D y nosequé otros intangibles onerosos y de dudosa utilidad pública,

podemos hoy disfrutar de otro ejercicio más de ese añejo ritual de la búsqueda del numerito inferior a 0.05 que tiene por título Newborn Health and the Business Cycle: Is it Good to be Born in Bad Times? y que adornará a perpetuidad el currículo de sus ambas autoras.

El índice de birrieza para distribuciones de probabilidad

Pido disculpas por usar birrieza, que no es una palabra que no existe. Si a alguien se le ocurre otro término mejor, que lo sugiera. Pero es que hay distribuciones de probabilidad que son una birria. Y de ellas me voy a ocupar hoy.

Pero antes, una digresión breve. Todas las distribuciones de probabilidad, en la práctica, están acotadas. Aunque sea por el número de átomos del universo. ¿Cuál es la importancia de dicha digresión? Que implica que no hay distribución que, en la práctica, se resista el teorema central del límite.

Causalidad a la Pearl y el operador do

Un tipo me pasó el librito de Pearl, Causality, y se ha pasado varios días dando la vara con que si me había leído ya el epígrafe. Pues sí, lo he leído este finde. Y no solo lo he leído sino que voy a escribir sobre ello.

Había tratado de leer cosas de Pearl en el pasado. Pero las encontraba demasiado llenas de letras difíciles de comprender si no se entendían bien las fórmulas. Que, a su vez, eran difíciles de comprender sin tener una idea clara de qué indicaban los diagramas adjuntos. Para cuya comprensión había que hacerse bien con el texto. Vamos, que nunca había sacado nada en claro. Aunque, confieso, la coyuntura en la que suelo leer ese tipo de cosas (metros, trenes, autobuses) tampoco me ayuda.