Nuevos comentarios sobre RevoScaleR

El reto lanzado por Revolution Analytics a SAS está relacionado con el lanzamiento por parte de la primera empresa de un paquete, RevoScaleR, diseñado para permitir el análisis de conjuntos de datos grandes. La lectura más detallada de uno de los pocos documentos técnicos que circulan sobre el paquete me invita a compartir con mis lectores mis impresiones más allá de las primeras y más someras que realicé hace unos días. La primera es que sigo sin entender claramente cómo es y cómo funciona el nuevo formato de almacenamiento de tablas, XDF. Al menos, no es público. Aunque es un tema de investigación candente (de lo que son prueba esto, esto, esto o el mismo paquete ff de R), no está claro si reaprovecha desarrollos previos o si es una implementación desde cero. ...

4 de marzo de 2011 · Carlos J. Gil Bellosta

RStudio, un nuevo editor multiplataforma para R

Noticia fresca, recién salida del horno: RStudio acaba de salir a la luz. Se trata de un nuevo editor multiplataforma y de código abierto de R . Está desarrollado en C++ y corre en Linux, Windows y Mac OS X. Y no puedo decir mucho más de momento. Pero espero los comentarios de todos los entusiastas de R al respecto.

1 de marzo de 2011 · Carlos J. Gil Bellosta

Programación funcional en R: Reduce

Siguiendo con la serie de artículos sobre programación funcional que comencé hablando de Filter() hace un tiempo, trataré hoy la función Reduce(). El contenido de cuanto sigue debería ser familiar de quienes asistieron al Taller Avanzado de R en las II Jornadas de Usuarios de R. Reduce es el segundo de los tiempos de una abstracción popularizado por Google y otros pero que tiene sus raíces en los lenguajes funcionales (Lisp y otros): map-reduce. En resumen, map es la transformación ...

28 de febrero de 2011 · Carlos J. Gil Bellosta

Enredando con el paquete googleVis de R

Si el otro día denuncié un gráfico engañabobos (y algún otro me explayaré muy constructivamente sobre el intercambio de correos que mantuve con sus autores), hoy he querido reproducirlo con el paquete googleVis de R. Habedlo: [cf]googleViz[/cf] El código utilizado para generarlo es: library(googleVis) library(reshape) a <- read.csv("http://datanalytics.com/uploads/serie_bde_1.csv")[,1:2] b <- read.csv("http://datanalytics.com/uploads/serie_bde_2.csv", header = F)[,1:2] colnames(a) <- c("fecha", "privado") colnames(b) <- c("fecha", "público") fechas <- data.frame(fecha = a$fecha, orden = 1:nrow(a)) goo.dat <- merge(merge(a, b), fechas) goo.dat <- goo.dat[order(goo.dat$orden),] goo.dat$privado <- goo.dat$privado / 10^9 goo.dat$público <- goo.dat$público / 10^9 goo.dat <- subset(goo.dat, select = c(privado, público)) goo.dat$date <- seq(as.Date("1962-01-01"), by = "month", length = nrow(goo.dat)) goo.dat <- melt(goo.dat, id.vars = "date") goo.tl <- gvisAnnotatedTimeLine(goo.dat, datevar = "date", numvar = "value", idvar = "variable") Finalmente, hay que advertir que no es inmediato el publicar estas visualizaciones en bitácoras como ésta (que utiliza Wordpress). Los detalles de cómo hacerlo, en este enlace.

17 de febrero de 2011 · Carlos J. Gil Bellosta

Animaciones estadísticas con R

He encontrado una página que será, seguro, del gusto de mis lectores. Contiene animaciones en R tales desarrolladas con el paquete animation tales como ésta sobre la optimización por mínimos cuadrados o esta otra sobre k-medias. ¡A disfrutar!

16 de febrero de 2011 · Carlos J. Gil Bellosta

Cómo reordenar niveles de factores en R

En esta entrada voy a mostrar tres maneras (que vienen a ser la misma) de ordenar los niveles de un factor en R: La básica La sofisticada El atajo Antes, responderé a una pregunta: ¿por qué reordenar niveles en factores? La mejor respuesta que se me ocurre: si no la sabes, deja de leer ya. Te aseguro que, a poco que trabajes con R, acabarás retomando la lectura. La forma básica es la siguiente: ...

15 de febrero de 2011 · Carlos J. Gil Bellosta

ggplot2 en su contexto

gplot2 es, sin duda, el paquete gráfico de moda en R. Hay quien lo ama, hay quien lo odia, pero cada vez son menos los que lo ignoran. Lo que igual no es tan sabido por los usuarios de R es el contexto en el que nació ggplot2, su relación con el motor gráfico de R y su relación con otros mecanismos de representación gráfica existentes en otros paquetes estadísticos. ...

10 de febrero de 2011 · Carlos J. Gil Bellosta

¿Un torpedo bajo la línea de flotación de SAS?

Revolution Analytics ha disparado un torpedo apuntando bajo la línea de flotación de SAS. Se trata del SAS to R challenge, una muy inteligente campaña de publicidad por la que se compromete a reescribir en R gratuitamente código SAS de clientes potenciales si el primero es más eficaz que el segundo. Más allá de lo que la campaña parece ser, se esconde lo que realmente es: la constatación de que el premio gordo en el mundo de análisis empresarial es la actual base instalada de SAS y de que Revolution va a por todas. ...

7 de febrero de 2011 · Carlos J. Gil Bellosta

Rudimentos para la manipulación de fechas con R

Puede que a alguien le resulte sencillo, pero jamás ameno: trabajar con fechas y horas es, cuando menos, una molestia con cualquier lenguaje de programación. Y como mi compañero Raúl ofreció en su bitácora una pequeña guía de cómo operar con ellas usando SAS/WPS, me dispongo yo a hacer lo propio con R. Leyendo fechas y horas: strptime El primer encontronazo con el insidioso problema de las fechas y las horas suele ser el tener que leerlas de algún fichero de texto. En tales casos la función strptime siempre es útil: ...

2 de febrero de 2011 · Carlos J. Gil Bellosta

R-node, una interfaz "web" para R

Acabo de tener noticia de R-node, una interfaz web para R. Permite abrir una sesión de R remota (o local) a través del navegador e interactuar con R como a través de la consola habitual. Los interesados deberían visitar esta demo y, tal vez, el código fuente en Gitorious.

31 de enero de 2011 · Carlos J. Gil Bellosta