Trucos cutrebayesianos

El contexto

Cada día $latex i$ ocurren eventos de cierta naturaleza (transacciones, fallecimientos, infartos, etc.) que interesa contar.

El problema

El número de eventos $latex n_i$ que ocurren el día $latex i$ no se conoce el día $latex i$ sino que va siendo conocido progresivamente los días $latex i+1, \dots$. Pero hace falta una estimación de $latex n_i$ antes del fin del mundo.

Los datos

  • La distribución de los $latex n_i$ (basados en el histórico).
  • La proporción (probabilidad) $latex p_\Delta$ de eventos del día $latex i$ que se conocen el día $latex i+\Delta$.

La solución prebayesiana

Pues los SVMs, al final, no son tan exóticos

Impartí un curso sobre máquinas de vector soporte (SVMs en lo que sigue) en Lima el pasado mes de agosto.

Las SVMs (o más propiamente, los clasificadores de margen máximo) son exóticos dentro del repertorio del científico de datos. Lo que buscan es un hiperplano que maximiza el margen entre tirios o troyanos,

con o sin penalización para los puntos que insisten en permanecer en la región del espacio que no les corresponde. El modelo se ajusta resolviendo un problema de minimización inhabitual: uno de los llamados programas cuadráticos convexos. (Del que no nos tenemos que preocupar habitualmente porque delegamos la resolución en el software).

A épsilon de todo

Usé a principios del verano una metáfora matemática como justificación de los contenidos de un curso que dicté pero que se puede extender al conocimiento en general. Más bien, a una estrategia para adquirirlos. La estrategia de estar a un ? de todo.

La metáfora está basada en el siguiente hecho: en dimensiones altas, casi toda la esfera unidad está a distancia ? de su corteza. En efecto, el volumen de una esfera de radio unitario en dimensión $latex d$ es $latex K_d$ y la de una esfera de radio $latex 1-\epsilon$ es $latex K_d (1-\epsilon)^d$. El ratio entre ambas cantidades es $latex (1-\epsilon)^{-d}$, que tiende a cero con $latex d$.

Vampírico como antónimo de empírico

No es exactamente un antónimo, aunque esté más alejado de lo empírico que el de libro, i.e., teórico.

Vampírico es un argumento (o hipótesis, u ocurrencia) al que no consigue matar la mera evidencia.

Para usos, orígenes y ejemplos, véase esto.

Ey, ¡en esta serie hay más muertos que en Juego de Tronos!

La serie en cuestión es esta (abridla en otra pestaña para verla en la plenitud de su definición):

Con tiene todas (explicar por qué no son todas sería complicado, pero se puede dar el cuantificador casi por bueno) las defunciones (diarias) en España desde la fecha indicada.

Los datos brutos están en la figura superior. Las tres siguientes tienen la descomposición estacional, la tendencia y los residuos tal como los estima stl.

Python y R: una perspectiva markoviana

R

Hoy he visto

aquí y he escrito

m <- matrix(c(74, 15, 10, 1, 11, 50, 38, 1,
            5, 4, 90, 1, 17, 4, 19, 60),
            4, 4, byrow = TRUE)
m <- m / 100

luego

m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m%*% m%*% m%*% m%*% m%*% m%*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m%*% m%*% m%*% m%*% m%*% m%*% m
#          [,1]      [,2]      [,3]       [,4]
#[1,] 0.1926676 0.1133218 0.6696203 0.02439024
#[2,] 0.1926647 0.1133206 0.6696245 0.02439024
#[3,] 0.1926638 0.1133202 0.6696258 0.02439024
#[4,] 0.1926675 0.1133218 0.6696205 0.02439025

y finalmente

Predecir a los predictores por incordiar

Sirve esta entrada para hacer saber lo fundamental del trabajo de fin de master (TFM en lo que sigue) de Susana Huedo (que busca trabajo y es una chica muy sabida, aplicada y espabilada) en el CIFF. Los TFM que propongo y acabo supervisando jamás tienen vocación de criogénesis anaquélica. A Susana le sugerí un tema muy punk y con recorrido: [tratar de] predecir a los predictores. Fundamentalmente, para joder.

Los chefs de encuestas electorales tienen dos discursos —uno previo y otro posterior a la publicación de los resultados—, una serie de recetas y datos que solo excepcionalmente publican. Dirán que se ciñen a una metodología científica, etc. Literatura.

¿Qué hemos hecho mal?

Leo (¡en prensa!):

Lo ha dicho el Instituto Nacional de Estadística: desde el inicio de la presunta crisis económica —por otros llamada fraude— el porcentaje de suicidios en España ha crecido un 20%. Nosotros somos cinco hermanos: me toca uno.

Algo estamos haciendo fatal.

¿Nos sacudimos las servidumbres del papel?

Esto es una página del DRAE en papel de toda la vida:

Esta es una de esas definiciones en mi pantalla.

No obstante, a pesar de todo el espacio blanco sobrante, el DRAE se empeña en usar abreviaturas. Porque está todavía sujeto a las servidumbres del papel preveintiunero.

Podéis o no estar de acuerdo conmigo. Pero en el primer caso, cuidado con manifestar demasiado abiertamente vuestra postura o