R

De números y funcionarios

El otro día apareció una noticia en El País sobre los funcionarios en España y el resto de Europa, en el que aparecía este gráfico.

Como me resultaron curiosos los datos relativos a nuestros vecinos, me entretuve en sacarles algo de punta. Así que fui a la Wikipedia y asocié a cada país su renta per cápita PPA (son datos del 2008, creo) y obtuve esto:

Funcionarios en Europa según PPA

Por respeto a la sagacidad de mis lectores (por ser lectores y míos los entiendo bien armados intelectualmente) me abstengo de realizar comentarios.

Regresión por cuantiles en R y SAS

Hace un tiempo, con la aburridora perspectiva de un largo viaje en metro hasta mi casa ensombreciendo mi futuro más inminente, decidí regalarme algún tipo de amena lectura. A tal fin, imprimí un articulillo que, bajo la perspectiva de SAS, me introducía a una técnica que se vino a mí como por azar. O, bajo otro punto de vista, una técnica que, también por azar, había esquivado hasta tal fecha un encontronazo con mi husmeadora curiosidad.

¡Hasta Microsoft!

R

El otro día incurrí de nuevo en la tan habitual como aburridora conversación acerca del papel que pueda jugar R en la empresa; más propiamente, tal vez, en determinadas áreas de determinadas empresas.

Carpetovetónico él, encumbrado a un otero mesetario, lo circunscribía al impermeable mundo académico español. Puede, sí, que la montaña no venga a Mahoma motu proprio; pero no hay que olvidar que a Mahoma no le faltan cumbres a las que encaramarse.

Datatables: tablas con búsqueda binaria en R

R

No hace mucho me enfrenté con un problema en el trabajo. Quería cruzar dos tablas, una de algunos miles de millones de registros y otra de algunos cientos de miles para, simplemente, contar el número de filas finales que aparecían por fecha.

Cada una de las tablas tenía algunos filtros y agregaciones; el cruce final se realizaba sobre las subconsultas resultantes. El gestor de bases de datos que utilizamos, Teradata (sin comentarios), no podía con el cruce: las decisiones que tomaba internamente el presunto optimizador de consultas conducían inexorablemente a un error de espacio.

R, ¿la herramienta de minería de datos más utilizada?

Pues eso es lo que parece indicar esta encuesta en el preciso momento en el que escribo. Cada uno le podrá otorgar la validez que desee, pero algún tipo de repercusión tendrá cuando:

  • Hace unos años, cuando trabajaba para cierto fabricante de software, nos pasaron un correo invitándonos a emitir un voto en la que se realizó en ese año (el portal realiza una encuesta análoga cada año). Además, desde nuestras casas para que no se cancelasen por abusar del mismo rango de IPs.
  • Hoy me ha llegado un correo de otro fabricante de software en cuya lista de distribución participo con idéntico objetivo.

Por lo anterior, por el impacto mediático, por todo, invito a mis lectores a que participen en la encuesta (hasta que acabe el plazo, se vota en la página del enlace, en la parte de abajo).

Para que copien, peguen y disfruten: addenda

R

Ayer dejé publicadas unas cuantas líneas de R y la promesa de contar de qué iba la cosa. Adelantando acontecimientos, he recibido comentarios públicos y privados al respecto que en esta entrada trataré de contestar.

El código era, una vez mínimamente desofuscado (no quería dar demasiadas pistas):

vertice.x <- c(0,1,2)                            # 1
vertice.y <- c(0,1,0)                            # 2
muestra <- sample( 1:3, 100000, replace = T )    # 3
iter <- function( ini, v ){                      # 4
   out <- rep( ini, length(v) )                  # 5
   for( i in 2:length(v) )
      out[i] <- ( out[i-1] + v[i] ) / 2          # 6
   out
}
plot( iter( runif(1), v.x[ muestra ] ),
      iter( runif(1),  v.y[ muestra ] ), pch = "." )

He aquí lo que hace:

Para que copien, peguen y disfruten

R

El otro día hablé de una señora que había hecho algunos comentarios poco avisados sobre R. A las alegaciones de que el código de R que publicó en su página no es, siquiera, código de R respondió diciendo que lo había copiado “de internet” (¡cuánto de pernicioso hay por esas páginas por donde uno navega sin temor de Dios!).

Para incrementar la probabilidad de que cuando esto vuelva a ocurrir el código pegado de internet sea más bonito que el arriba mencionado dejo acá éste (e invito a mis lectores a ejecutarlo):

Los "mejores" paquetes de R (I): la red social de los participantes en r-help

Hace no mucho leí un articulillo de SAS sobre el impacto de ciertas marcas en determinadas redes sociales. Como este tema, así como sus posibles aplicaciones, siempre me ha intrigado, llevado de la curiosidad y del aburrimiento, decidí realizar un estudio análogo.

El artículo de SAS utiliza como materia prima resúmenes de publicaciones científicas que tratan de determinados medicamentos. A los autores les interesa conocer de qué marca de medicamentos escribe cada autor ponderando a éstos últimos en función de su impacto. El impacto lo miden a través de su peso en la red de colaboraciones científicas: tiene alto impacto un autor que ha escrito muchos artículos en colaboración con otros autores que también han escrito muchos artículos.

La opinión sobre R de una pobre señora

R

Me llegan noticias de una pobre señora que, se conoce, tiene un blog en el que habla de cosas que, da la impresion, le trascienden. Dice lo siguiente:

Contrary to what some people seem to think, R is definitely not the next big thing, either. I am always surprised when people ask me why I think that, because to my mind it is obvious.

Vamos, que no cree en R y que, además, esa idea suya le parece la más obvia del mundo. Para apoyar su argumento, muestra el siguiente ejemplo de código en R, supuestamente muy feo (más, de hecho de lo que se imagina):

¿Puedo cambiar mi código retroactivamente?

R

La verdad, me gustaría, Me gustaría volver atrás y modificar algunas docenas de código en R que malescribí como un diletante por no estar al tanto de una función de R cuya verdadera utilidad descubrí recientemente (gracias le sean dadas, de nuevo, a Jorge Iván Vélez).

La verdad, no tengo excusa. Incluso se habló de ella en nuestro blog hermano.

Y es que nunca me había percatado de la potencia de la función mapply. He aquí el problema: se tienen dos listas de la misma longitud y se quieren transformar los objetos de la primera en función de datos extraídos de los objetos correspondientes de la segunda. En los tiempos oscuros que duraron hasta anteayer, me veía abocado a utilizar un bucle que llevase la contabilidad del índice para poder recorrer ambas listas simultáneamente:

Proyectos de R en el Google Summer of Code 2010

R

El Google Summer of Code es una iniciativa de Google por la cual la empresa otorga becas a estudiantes para que estos colaboren en determinados proyectos de código abierto. Y las becas no son moco de pavo: cada estudiante aceptado recibiría 5000 dólares de Google.

En estas colaboraciones, los estudiantes participan bajo la tutela de un mentor. Se buscan, por tanto, mentores con proyectos y estudiantes que quieran participar en alguno de ellos.

R en "The economist"

R

El semanario The Economist ha publicado un suplemento especial sobre nuevos retos y tendencias en el proceso de cantidades ingentes de información. Aparte de multiplicar por 10 los informes que aparecen publicados periódicamente, en éste se menciona explícitamente que un free programming language called R lets companies examine and present big data sets.

También habla de Hadoop y otras técnicas y herramientas novedosas de las que sin duda voy a ir hablando en estas páginas. Aunque sólo sea que me embarco en un proyecto destinado a manipular grandes volúmenes de datos con tecnologías del siglo XX.

Edición especial del Journal of Statistical Software sobre GUIs para R

Se ha anunciado recientemente una edición especial del Journal of Statistical Software acerca de interfaces gráficas para R. Los editores son Pedro Valero Mora y Rubén Ledesma.

Me tomo la libertad de traducir el anuncio para este blog:

Desde la publicación del artículo original de Gentleman and Ihaka, R ha sido adoptado por un porcentaje creciente de estadísticos profesionales en la universidad y fuera de ella, pero su difusión entre los usuarios nuevos u ocasionales de la estadística no ha progresado al mismo ritmo. Una de las razones más esgrimidas para explicar la falta de impacto es la de la falta de una interfaz gráfica. Sin embargo, en los últimos años, la situación ha ido cambiando y han aparecido diversos proyectos que han construido distintos GUIs para R de diverso grado de sofisticación. Esto ha constituido una nueva fuente de confusión para el usuario: ¿cuál usar? Se ha pasado de una situación en la que apenas existían a otra en la que hay demasiados.