Carlos J. Gil Bellosta

Y viene del español, tú

Cada día soy más inculto. He dejado de escuchar música; en el último concierto al que fui maté el tiempo con un jueguito del móvil; la taquillera del teatro de mi barrio se niega a venderme entradas por cuestiones formales (que si son las 18:01 y la taquilla cierra a las 18:00); hace años que no leo ficción; en el Reina Sofía, donde otros ven arte yo encuentro desgana y mis gustos cinematográficos son de lo más estragado. ...

Clústers de trayectorias con la distancia de Fréchet

Los viejos del lugar recordarán esto, donde agrupo trayectorias usando k-medias a pelo. El paquete kmlShape usa la distancia de Fréchet para hacer algo parecido: buscar trayectorias geométricamente similares. El código es library(kmlShape) library(tseries) library(zoo) library(XML) library(reshape) library(ggplot2) foo <- function( simbolo, final = Sys.time(), profundidad = 30 * 24 * 3600) { precios <- get.hist.quote( instrument= simbolo, start = final - profundidad, end = final, quote=c("AdjClose"), provider="yahoo", origin="1970-01-01", compression="d", retclass="zoo") colnames(precios) <- simbolo return(precios) } # lista de símbolos del ibex tmp <- readHTMLTable("http://finance.yahoo.com/q/cp?s=%5EIBEX+Components")[[5]] tmp <- as.character(tmp$V1[-(1:6)]) ibex <- do.call(merge, sapply(simbolos, foo, simplify = F)) ibex.scaled <- data.frame(t(scale(ibex))) tmp <- cldsWide(ibex.scaled) res <- kmlShape(tmp, 4, toPlot = "none") tmp <- data.frame( id = rownames(ibex.scaled), cluster = res@clusters, ibex.scaled) tmp <- melt(tmp, id.vars = c("id", "cluster")) tmp$fecha <- as.Date(tmp$variable, "X%Y.%m.%d") ggplot(tmp, aes(x=fecha, y=value, group=id)) + geom_line() + facet_wrap(~cluster) y el resultado, ...

¿Un libro recomendable de estadística básica?

Me piden bibliografía para unos cursos de ciencia de datos. En particular, de estadística básica. Un texto que reúna los conceptos fundamentales de la cosa para quienes o no los aprendieron en su día o los olvidaron por el camino. Tiene que cumplir algunos requisitos mínimos: Que presente los gráficos estadísticos básicos y que no estén construidos con Excel (en 3D). Que, a lo más, incluya un único gráfico de tarta. Que no sea muy pesado matemáticamente. Que sea breve, pero no demasiado. Que esté accesible, idealmente en internet, gratuita y legalmente. Finalmente, si está escrito escrito en español y usa R, mejor aún. ...

rPython + feather

Supongo que a estas alturas todos conoceréis feather y rPython. Hoy los vais a ver trabajar juntos. Primero solo en R: library(feather) path <- "/tmp/my_data.feather" write_feather(cars, path) my_cars <- read_feather(path) Ahora, para pasarle datos a Python: library(rPython) python.exec("import feather") python.exec("a = feather.read_dataframe('/tmp/my_data.feather')") python.exec("print a") Y, finalmente, para crear datos grandes en Python y devolvéselos a R: python.exec("import numpy as np") python.exec("import pandas as pd") python.exec("arr = np.random.randn(10000000)") python.exec("arr[::10] = np.nan") python.exec("df = pd.DataFrame({'column_{0}'.format(i): arr for i in range(10)})") python.exec("feather.write_dataframe(df, '/tmp/test.feather')") python.data <- read_feather("/tmp/test.feather") dim(python.data) #[1] 10000000 10 Los tiempos, que los mida cada cual.

¿Nos vemos en el Machine Learning Spain XII?

Porque voy a dar una charla en él. Es este jueves, por la tarde, en el Campus de Google de Madrid (los detalles). Se tratará de una introducción a y justificación de aproximaciones más bayesianas de lo habitual a problemas reales del análisis de datos. Que comenzará con una explicación sobre cuándo 100% no significa 100% para terminar con lo que viene siéndome habitual últimamente: un ejemplo en rstan con su discusión.

Túneles ssh para conectarse de manera segura con RStudio Server

La solución que presenté el otro día para resolver el problema en cuestión, tal como indicó Iñaki Úcar, es demasiado aparatosa. La alternativa a mi propuesta ssh -ND 2001 miusuario@datanalytics.com y todo lo que sigue es crear un túnel ssh mediante ssh -NL 2001:localhost:8787 miusuario@datanalytics.com y conectarse a la sesión remota de RStudio apuntando en cualquier navegador a http://localhost:2001. El comando anterior exige la debida exégesis, que nunca había tenido del todo clara. Lo que hace es, primero, crear una conexión entre mi ssh local, el ordenador en el que lanzo el comando, y mi ssh remoto (el servidor con nombre datanalytics.com). Eso es lo que verán los terceros: una conexión ssh entre dos máquinas. ...

Redirección dinámica de puertos para conectarse de manera segura con RStudio Server

Finalmente, instalé RStudio Server en la máquina que está sirviéndote esta página. Pero no dejo abierto el puerto 8787 al exterior ni jarto de vino. (De hecho, veréis que desde hace un tiempo a este blog escucha en el puerto 443 y, aunque esa es otra historia, utiliza HTTP/2). Así que lo he configurado para que solo se pueda acceder a él desde localhost, i.e., que no admita conexiones remotas, añadiendo la línea ...

Cartociudad

caRtociudad es esto. Más noticias habrá.

Funciones de densidad log-cóncavas

Las funciones de densidad log-cóncavas son aquellas cuyo logaritmo es una función cóncava. Por ejemplo, la normal: el logaritmo de su función de densidad es, constantes aparte, $-x^2/2$. El producto de dos funciones de densidad log-cóncavas es log-cóncava: $\log(fg) = \log f + \log g$ (y la suma de cóncavas es cóncava: calcula la segunda derivada). También lo son la suma de dos variables aleatorias cuyas funciones de densidad lo son (la demostración es consecuencia de esta desigualdad). ...

El AUC es la probabilidad de que...

Voy a constuir unos datos artificiales y un modelo de clasificación binaria, library(mgcv) library(ggplot2) library(pROC) n <- 10000 dat <- gamSim(1, n=n, dist="binary", scale=.33) lr.fit <- gam(y ~ s(x0, bs="cr") + s(x1, bs="cr") + s(x2, bs="cr") + s(x3, bs="cr"), family=binomial, data=dat, method="REML") y luego (mal hecho: debería hacerlo sobre un conjunto de validación distinto) a obtener las predicciones para las observaciones res <- data.frame(real = factor(dat$y), prob = predict(lr.fit, type = "response")) que ggplot(res, aes(x=prob, fill=real)) + geom_density(alpha=.3) representa así: Me pregunto si el clasificador construido es bueno. Para lo cual voy a construir la curva ROC con sies <- res[res$real == "1",] noes <- res[res$real == "0",] scores <- 0:100 / 100 q.si <- ecdf(sies$prob)(scores) q.no <- ecdf(noes$prob)(scores) plot(q.si, q.no, type = "l") que produce ...