Unas cuantas notas sobre estadística

Uno de los metaprincipios de la construcción de modelos estadísticos es que la calidad de los modelos es función de la cantidad de información que hay en los datos de entrenamiento. No existe el bootstrap en el sentido etimológico del término: no puede uno levantarse en el aire tirando hacia arriba de los cordones de los zapatos. Pero al hilo de una noticia reciente, Gelman discute si añadir ruido a los datos permite reducir el sobreajuste. Además, en la discusión al respecto, alguien cita el artículo de 1995 Training with Noise is Equivalent to Tikhonov Regularization, una especie de penalización en el tamaño de los coeficientes al modo de la regresión ridge. ...

16 de octubre de 2025 · Carlos J. Gil Bellosta

Cadenas de Markov para generar trayectorias posibles de huracanes

Supongo que todo el mundo estará enterado de lo que hizo Shannon en 1948: generar texto automático usando cadenas de Markov. Los que no, deberían consultar esto. Ahora, Generating Hurricanes with a Markov Spatial Process describe una extensión de la idea original permite simular posibles trayectorias de huracanes.

9 de enero de 2019 · Carlos J. Gil Bellosta

Modelos de factores ocultos y la caverna de Platón

La filosofía griega, aunque tosca, es rica en imágenes poderosas. El monotemático, además, solo ve su monotema. Así que observando no pude dejar de pensar que sugiere perfectamente los modelos (de factores) ocultos: kriging, Kalman, los HMM, etc. En definitiva, los humanos vemos las sombras (ruidosas) de unos objetos ideales que permanecen escondidos. Aunque a diferencia del iluminado platónico que logra girar la cabeza, nosotros, simplemente, exprimimos las sombras para conocer más y mejor los objetos que las proyectan.

13 de marzo de 2018 · Carlos J. Gil Bellosta

Python y R: una perspectiva markoviana

Hoy he visto aquí y he escrito m <- matrix(c(74, 15, 10, 1, 11, 50, 38, 1, 5, 4, 90, 1, 17, 4, 19, 60), 4, 4, byrow = TRUE) m <- m / 100 luego m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m%*% m%*% m%*% m%*% m%*% m%*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m %*% m%*% m%*% m%*% m%*% m%*% m%*% m # [,1] [,2] [,3] [,4] #[1,] 0.1926676 0.1133218 0.6696203 0.02439024 #[2,] 0.1926647 0.1133206 0.6696245 0.02439024 #[3,] 0.1926638 0.1133202 0.6696258 0.02439024 #[4,] 0.1926675 0.1133218 0.6696205 0.02439025 y finalmente res <- eigen(t(m)) res$vectors[,1] / sum(res$vectors[,1]) #[1] 0.19266473 0.11332059 0.66962444 0.02439024 Aquí dice por qué.

6 de septiembre de 2017 · Carlos J. Gil Bellosta

"Lengua y Markov" en MartinaCocina este sábado

Hija de la improvisación de hace un ratico, habrá mañana sábado día 4 (de octubre de 2014), a las 19:00 una reunión de gente poco cabal en MartinaCocina para discutir asuntos relacionados con el análisis de textos (y en una vertiente más lúdica, la generación de textos) usando cadenas de Markov. Nos juntaremos, entre otros, los autores del Escritor Exemplar (uno de los cuales es quien suscribe) y el de Markov Desencadenado.

3 de octubre de 2014 · Carlos J. Gil Bellosta

Todo el mundo habla de cadenas de Markov

Todo el mundo habla últimamente de cadenas de Markov. ¿No os habéis dado cuenta? ¿O seré yo el que saca a relucir el asunto venga o no al caso? Sea que se haya puesto de moda o que esté mi misma obsesión por el asunto sesgando mi impresión sobre sobre (me encanta escribir dos preposiciones seguidas) lo que la gente habla, es el caso que el otro día me comprometí a escribir sobre ...

29 de abril de 2014 · Carlos J. Gil Bellosta

El escritor exemplar

El escritor exemplar es un experimento de escritura automática realizado por Molino de Ideas sobre una idea de Mario Tascón y con la colaboración de Carlos J. Gil Bellosta en conmemoración por los 400 años de la publicación de Las Novelas Ejemplares. Eso reza el pie de página de El escritor exemplar un artilugio que a veces crea frases tales como que debieran ser aleatorias, no muy distintas en estilo de las Novelas Ejemplares y, con muchísima suerte, inspiradoras. ...

13 de marzo de 2014 · Carlos J. Gil Bellosta

¿Cuánta gente usará R (vs Python vs otros) dentro de 1000 años?

Pues no lo sé. Seguramente, nadie. Pero como he visto esto (que no es otra forma que una representación palabrera de una matriz de transiciones de Markov) y el debate R vs Python para el análisis de datos ha resonado estos últimos días con cierta fuerza, voy a ensayar un pequeño divertimento matemático que me traslada a una clase práctica de Álgebra I en mis años de estudiante. Es el siguiente: # creo la matriz de transición cols <- c("r", "python", "otros") mt <- c(227, 108, 33, 31, 140, 7, 58, 27, 68 + 73) mt <- matrix(mt, nrow = 3, byrow = T) colnames(mt) <- rownames(mt) <- cols mt <- prop.table(mt, 1) # la diagonalizo tmp <- eigen(mt) # efectivamente, la diagonalización "funciona" tmp$vectors %*% diag(tmp$values) %*% solve(tmp$vectors) # y dejo discurrir 1000 años tmp$vectors %*% diag(tmp$values^10000) %*% solve(tmp$vectors) Como resultado, podemos estimar que el en futuro, el 33% de los data scientists estarán usando R contra el 53% que usará Python y el 13% que se decantará por otras herramientas. O, casi seguro, no.

18 de diciembre de 2013 · Carlos J. Gil Bellosta