R

¡Reeditamos el curso básico de R!

El año pasado, Juanjo Gibaja y yo organizamos nuestro primer Curso Básico de R. En esta entrada quiero anunciar su inminente reedición: ¡comienza el 11 de febrero!

Las características del curso van a seguir siendo, esencialmente, las mismas:

  • Es gratuito.
  • No da derecho a diplomas o certificados de ningún tipo.
  • No es presencial.
  • Plazas ilimitadas.
  • Está basado en el autoestudio: cada participante tendrá que leer y trabajar por su cuenta.
  • Está supervisado: los organizadores del curso nos encargaremos del programa, de dar soporte de última instancia a las preguntas abiertas por los estudiantes.
  • Es colaborativo: hemos desarrollado una plataforma web para que quienes sigan el curso puedan plantear preguntas y, como parte fundamental del programa, tratar de responder las de sus compañeros.
  • Es genérico. Cada cual quiere aprender R por un motivo distinto: unos, para analizar encuestas; otros, por su interés en la minería de datos; algunos, para analizar series temporales,… El curso está pensado para llevar a cada cual hasta el mismo umbral de su tema de interés de forma que pueda después de él avanzar en el tema por su cuenta. Pero sin hacer especial hincapié en ningún asunto concreto.
  • El contenido estadístico será mínimo (se limitará a algo de estadística descriptiva y poco más).

Los interesados encontrarán más información en este documento.

Tu tasa de paro personal

En el pasado nos hemos ocupado en estas páginas del desempleo. Hoy, día en el que se han anunciado los datos de la EPA del último trimestre de 2012, sale a la luz TTParo.es, un proyecto en el que he colaborado (aunque en el que todo lo que se ve es obra de Kaleidos) y que permite calcular tu tasa de paro personal.

Por ejemplo, en

puedo ver la evolución de la tasa de paro de aquellos que son como yo desde el 2005 y compararla con la general.

Arte con R: tres enlaces

Traigo hoy a mi bitácora tres enlaces sobre la creación de artefactos gráficos con R.

En el primero (¡en japonés!) puede uno aprender a construir cosas como

El segundo reproduce con R la siguiente obra de Bridget Riley:

Y el tercero es una elaboración sobre el anterior que permite generar gráficos tales como

Una aplicación SEO con R

R

Leyendo Bad Data vine a saber que Google deja en los logs de Apache información muy relevante sobre la optimización del sitio. En efecto, cuando alguien encuentra tu página en Google, Apache deja (casi siempre) en los logs una línea similar a

188.77.154.135 - - [30/Dec/2012:09:35:28 +0000] "GET /blog/page/33/?p=... HTTP/1.1" 200 15348 "http://www.google.es/url?sa=t&rct=j&q=breiman%20dos%20culturas%20estadistica&source=web&cd=21&cad=rja&ved=0CDIQFjAAOBQ&url=http%3A%2F%2Fwww.datanalytics.com%2Fblog%2Fpage%2F33%2F%3Fp%3D...&ei=1QrgULj7E6qk0QXRwYHgCQ&usg=AFQjCNHpdZUVD15sC7CdOvUOppdcXAjweQ&sig2=hKh3vCnCrvublGxQXoojyg&bvm=bv.1355534169,d.d2k" "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; ca-es) AppleWebKit/533.21.1 (KHTML, like Gecko) Version/5.0.5 Safari/533.21.1"

La parte

"http://www.google.es/url?sa=t&rct=j&q=breiman%20dos%20culturas%20estadistica&source=web&cd=21&cad=rja&ved=0CDIQFjAAOBQ&url=http%3A%2F%2Fwww.datanalytics.com%2Fblog%2Fpage%2F33%2F%3Fp%3D...&ei=1QrgULj7E6qk0QXRwYHgCQ&usg=AFQjCNHpdZUVD15sC7CdOvUOppdcXAjweQ&sig2=hKh3vCnCrvublGxQXoojyg&bvm=bv.1355534169,d.d2k"

indica que el usuario buscó en google.es la cadena breiman dos culturas estadistica y la expresión cd=21 significa que mi página era el resultado número 21 según los algoritmos de Google. (Aunque dicha posición puede variar según el idioma del navegador y otras circunstancias que Google usa para personalizar las búsquedas).

El Ibex 35 al estilo GapMinder

Quiero representar hoy la evolución del Ibex 35 a lo largo del año pasado al estilo GapMinder. En concreto, usando un MotionChart de Google.

Primero, bajo los símbolos de los activos del Ibex de Yahoo! Finance:

library(XML)
simbolos <- readHTMLTable(htmlParse("http://finance.yahoo.com/q/cp?s=%5EIBEX+Components"))
simbolos <- as.character(simbolos[[9]]$Symbol)
simbolos <- gsub("-P", "", simbolos)

Luego, creo una pequeña función y se la aplico a cada símbolo:

library(tseries)

foo  <- function( simbolo, final = Sys.time(), profundidad = 365 * 24 * 3600 ){

    tmp <- get.hist.quote(
        instrument= simbolo, start = final - profundidad,
        end= final, quote="AdjClose",
        provider="yahoo", origin="1970-01-01",
        compression="d", retclass="zoo")

    precios <- as.data.frame(tmp)
    precios$fecha <- index(tmp)
    rownames(precios) <- NULL
    precios$simbolo <- simbolo

    precios$AdjClose <- 100 * precios$AdjClose / precios$AdjClose[1]
    precios$x <- as.numeric(precios$fecha)
    precios$x <- 1 + precios$x - precios$x[1]
    colnames(precios) <- c("precio", "fecha", "simbolo", "dias")

    precios
}

res <- sapply(simbolos, foo, simplify = F)
res <- do.call(rbind, res)

Finalmente, creo el gráfico:

Prueba R, gentileza de code school.com

R

¿Has oído hablar de R y quieres probarlo? ¿Sabes de alguien que esté pensando en hacer sus pinitos con él y que no sepa por dónde empezar?

Codeschool.com (en colaboración con O’Reilly) han creado un microcurso, Try R, que permite familiarizarse con lo básico de R sin instalar nada, desde el navegador.

¿Quieres probar R? No tienes excusa.

¿... coma cero dos por ciento? ¡Anda ya!

Hoy hablo en la reunión del grupo de usuarios de R de Madrid. Voy a reciclar la charla que di en las IV Jornadas de Usuarios de R sobre mi paquete MicroDatosEs y voy a aprovechar para criticar, en mi estilo, enunciados como

El número de parados crece en 85.000 personas y alcanza la cifra de 5.778.100. La tasa de paro se incrementa 38 centésimas hasta el 25,02%.

que pueden encontrarse en la nota de prensa del INE que resume los resultados de la última encuesta de población activa, la del tercer trimestre de 2012.

Presentación del libro "Six Sigma with R"

El martes 20 de noviembre, a las 17:00h, tendrá lugar la presentación del libro Six Sigma with R: Statistical Engineering for Process Improvement" en la sala Juan Béjar de la E.U. de Estadística de la U. Complutense por parte de Emilio López Cano.

Existe además un paquete de R, SixSigma, desarrollado por los autores y disponible en CRAN.

El mundo del control de la calidad (en ingeniería) está dominado por software propietario, particularmente, Minitab. Esperemos que este libro ayude a que el uso de R se incremente en ese ámbito ya no tanto por la segunda de las razones que David Ríos indica en el prefacio, esto es, que R es gratis, sino por la primera: que R es robusto, riguroso y eficiente.