Me voy a Gijón toda la semana
A esto:
A esto:
Siempre (aténganse los puristas al contexto) recomiendo comenzar con un árbol de decisión para, sobre esa base, ensayar métodos más potentes. Sobre todo si la precisión conviene más que la interpretabilidad.
En la dirección opuesta se sitúan los árboles rápidos y frugales. Un árbol rápido y frugal es un tipo de árbol de decisión tal como
La restricción que satisface (a diferencia de los árboles de decisión más habituales) es que:
Los productos de Apple, aun admitiendo su calidad, resuelven problemas que yo hace años que no tenía. Tanto data.table
como dplyr
vinieron a resolver problemas a los que muchos nos enfrentábamos con sudor y lágrimas.
Ha aparecido recientemente una serie de tutoriales sobre ambos paquetes que recomiendo:
data.table
dplyr
(parte I, parte II)Y mis comentarios:
reshape2
y plyr
.data.table
. En gran medida, porque es previo a dplyr
.dplyr
acabará llevándose el gato al agua: tengo suficientes años como para haber presenciado sin que me las cuenten batallas anteriores: Beta vs VHS, Wordperfect vs Word, etc.Jan Gorecki ha resumido las soluciones a las cincuenta preguntas más populares sobre el paquete data.table de R en Stack Overflow y las ha resumido en forma de tutorial aquí.
Muy recomendable. Muy recomendable también data.table
.
Aunque me temo que el hadleyverse, y por razones que nada tienen que ver con la calidad de la cosa, no van a dejar de él, a medio plazo, ni las raspas.
rio
es otro de esos desasosegantes paquetes de R. rio
contiene esencialmente tres funciones,
import
, que lo lee todoexport
, que lo escribe todo yconvert
, que transforma un fichero de un formato a otro.Según su documentación, uno puede hacer cosas como
export(mtcars, "mtcars.csv")
export(mtcars, "mtcars.rds")
export(mtcars, "mtcars.sav")
para guardar mtcars
en cualquiera de los formatos indicados por la extensión y luego
x <- import("mtcars.csv")
y <- import("mtcars.rds")
z <- import("mtcars.sav")
para importarlos sin complicaciones de separadores, encabezamientos, etc. Además, ya puestos,
Esto que cuento hoy puede ser muy útil: cómo mejorar los GLMs mediante la introducción de prioris (casi) a voluntad sobre los coeficientes. Usando el paquete arm
de R, claro.
De momento y porque aún tengo sucios los datos sobre los que me gustaría aplicar el modelo, extraeré un ejemplo de la ayuda de la función principal del paquete, bayesglm
.
Primero, preparo unos datos:
n <- 100
x1 <- rnorm (n)
x2 <- rbinom (n, 1, .5)
b0 <- 1
b1 <- 1.5
b2 <- 2
y <- rbinom (n, 1, invlogit(b0+b1*x1+b2*x2))
Comenzamos con un glm
de toda la vida.
Continuando con la entrada anterior, ahora, números.
Primero, el planteamiento (cuatro partidos, etc.):
probs <- c(4, 3, 2, 1)
probs <- probs / sum(probs)
partidos <- letters[1:length(probs)]
Nos hará falta más adelante
library(plyr)
library(rstan)
library(ggplot2)
library(reshape2)
Sigo con el proceso de muestreo. Reitero: cada encuestador enseña al encuestado una tarjeta al azar donde aparece el nombre de dos partidos y le pregunta si ha votado (o piensa votar) a alguno de ellos.
n <- 3000
resultados <- data.frame(
tarjeta = sample(1:nrow(tarjetas), n, replace = T),
partido = sample(partidos, n, prob = probs, replace = T))
resultados <- data.frame(
tarjetas[resultados$tarjeta,],
partido = resultados$partido)
resultados$coincide <- resultados$partido == resultados$partido1 |
resultados$partido == resultados$partido2
# proporciones reales en la muestra
props.muestra <- table(resultados$partido) / nrow(resultados)
# resultados agregados (por tarjeta)
resultados.agg <- ddply(
resultados, .(partido1, partido2),
summarize,
total = length(partido1),
coincidencias = sum(coincide))
Y
Si creo la función
foo <- function(a,b) a*a + b
y la llamo mediante
foo(1 + 1,3)
pueden ocurrir dos cosas: o bien que R precalcule 1+1
y la función ejecute 2 * 2 + 3
o bien que la función ejecute directamente (1+1)*(1+1)+3
. Pero, ¿qué es lo que hace realmente? Si escribimos
f1 <- function(x){
print("Soy f1")
x
}
f2 <- function(x){
print("Soy f2")
x
}
foo(f1(2), f2(3))
obtenemos
> foo(f1(2), f2(3))
[1] "Soy f1"
[1] "Soy f2"
[1] 7
lo que significa que f1
ha sido llamada una única vez. Es decir, R resuelve sus argumentos antes de aplicar la función. Pero hay más:
O tal dice lo que expongo a continuación.
Paquetes necesarios:
library(rvest)
library(caRtociudad)
library(reshape2)
library(ggmap)
library(plyr)
library(TSP)
Extracción de las provincias y sus capitales (de la Wikipedia):
capitales <- read_html("https://es.wikipedia.org/wiki/Anexo:Capitales_de_provincia_de_Espa%C3%B1a_por_poblaci%C3%B3n")
capitales <- html_nodes(capitales, "table")
capitales <- html_table(capitales[[1]])$Ciudad
capitales <- capitales[!capitales %in%
c("Las Palmas de Gran Canaria",
"Melilla", "Ceuta", "Mérida",
"Santa Cruz de Tenerife",
"Santiago de Compostela",
"Palma de Mallorca")]
Y sus coordenadas:
coordenadas <- ldply(capitales, function(x) {
tmp <- cartociudad_geocode(x)[1,]
res <- data.frame(ciudad = x, provincia = tmp$province, lat = tmp$latitude, lon = tmp$longitude)
if(is.na(res$lat)){
tmp <- geocode(paste(x, "España"))
res$lat <- tmp$lat
res$lon <- tmp$lon
}
res
})
# Pobre Logroño: ¡Cartociudad lo ubica en Asturias!
coords.logrono <- geocode("Logroño")
coordenadas$lat[coordenadas$ciudad == "Logroño"] <- coords.logrono$lat
coordenadas$lon[coordenadas$ciudad == "Logroño"] <- coords.logrono$lon
Construcción de la matriz simétrica de distancias (¡tarda un buen rato!):
Una de las cosas de las que me acuerdo de cuando leía es un parrafito de Mi idolatrado hijo Sisí en el que Delibes ponía en la boca no sé si de alguno de sus protagonistas o del narrador en el que se daba cuenta de la anormalidad histórica que supuso el tiempo de la II República: de repente, la gente hacía cosas que nunca había hecho y que nunca había vuelto a hacer: hablar a todas horas y con todo el mundo de política. La política entraba en los círculos de amigos, en la sobremesa de las familias, etc.
Tengo la sensación de que un lenguaje funcional (como Scala) está particularmente bien adaptado al tipo de operaciones que exige MCMC.
Juzguen Vds.
Primero, genero datos en R:
datos <- rnorm(500, 0.7, 1)
writeLines(as.character(datos), "/tmp/datos.txt")
Son de una normal con media 0.7. En el modelo que vamos a crear, suponemos conocida (e igual a 1) la varianza de la normal y trataremos de estimar la media suponiéndole una distribución a priori normal estándar. Y con Scala, así:
(Aviso: esta entrada podría competir dignamente en una competición de titulares engañosos. Es posible que si no sepas de qué hablo regularmente te interese más esto).
En España hay pruebas de acceso a la universidad que y en algunos sitios publican las notas de corte para acceder a determinados estudios. Las he bajado escrapeando El País así
library(rvest)
library(plyr)
library(rstan)
library(reshape2)
options(mc.cores = 2)
url <- "http://elpais.com/especiales/universidades/"
pagina <- read_html(url, encoding = "UTF8")
urls_provs <- html_nodes(pagina, "a")
urls_provs <- html_attr(urls_provs, "href")
urls_provs <- paste0("http://elpais.com", urls_provs[grep("centro/provincia", urls_provs)])
foo <- function(url){
tmp <- read_html(url)
urls <- html_nodes(tmp, "a")
urls <- html_attr(urls, "href")
paste0("http://elpais.com", urls[grep("^/especiales/universidades/titulacion/universidad", urls)])
}
urls_univs <- sapply(urls_provs, foo)
urls_univs <- unique(unlist(urls_univs))
foo <- function(url){
tmp <- read_html(url)
lugares <- html_nodes(tmp, xpath = "//*/div[@class = 'lugar']")
data.frame(carrera = html_text(html_nodes(lugares, xpath = "//*/a[@class = 'carrera']")),
sede = html_text(html_nodes(lugares, xpath = "//*/p[@class = 'escuela']/span/a")),
nota = html_text(html_nodes(tmp, xpath = "//*/div[@class='nota']/p/text()")))
}
res <- ldply(urls_univs, foo)
notas <- res
notas$nota <- as.numeric(as.character(res$nota))
# limpieza de datos
notas$nota[notas$nota > 5000] <- notas$nota[notas$nota > 5000] / 1000
notas <- notas[notas$nota > 0,]
notas <- notas[order(notas$nota), ]
con el objetivo de estudiar el efecto de la universidad / sede y de la carrera en el punto de corte. Esencialmente, quiero hacer algo así como lmer(nota ~ 1 + (1 | sede) + (1 | carrera), data = notas)
, pero hay una complicación: como creo que mis lectores sabrán, las notas de acceso tienen un valor mínimo, el del aprobado, 5. Eso significa que, de alguna manera, están censuradas por la izquierda. El modelo resultante es algo así como
Google Analytics puede usarse desde su consola o bien descargando datos y procesándolos por tu cuenta. Para lo cual, desde R,
require(RGoogleAnalytics)
client.id <- "1415926535-u377en6un7lugar2de7lamancha0de1cuyo5nombre0m.apps.googleusercontent.com"
client.secret <- "CEcI5nEst6pAs6Un2SecREt6-f8nt"
token <- Auth(client.id,client.secret)
#save(token,file="~/.ga_token_file")
Obviamente, para lo anterior:
Además, puedes descomentar la última línea si quieres guardar tus credenciales para futuros usos (con las debidas medidas de seguridad). Tras lo cual,