R - Carlos J. Gil Bellosta

Escribo para anunciar públicamente que están en marcha las V Jornadas de Usuarios de R. Se celebrarán este año en Zaragoza, los días 12 y 13 de diciembre.

Todavía no está disponible el programa (que, en cierto modo, es responsabilidad de vosotros: estáis invitados a enviar propuestas de ponencias y talleres). Tenemos un concurso cuyas bases podrían todavía modificarse si un generoso patrocinador asumiese su financiación.

Y eso, que estáis todos invitados a esta nueva edición de las jornadas.

Hora es cumplida, creo yo, de repensar el portal de la Comunidad R Hispano. Así que he pensado en pulsar el criterio —que estimo sobremanera— de mis visitantes y solicitar de ellos (vía comentario a esta entrada) sugerencias. Por acotar el tema, sugiero que vayan encaminadas a dirimir estas dos cuestiones:

¿Cuál debería ser el objetivo de un portal de esas características?
¿Cómo debería organizarse para alcanzar mejor esos objetivos?

Y como colofón, ¿conocéis algún modelo aplicable y que funcione?

Ya ha salido publicado el vídeo de la charla sobre la EPA (y más cosas) que anuncié el otro día.

Coda

El enlace anterior puede no estar ya operativo. He logrado rescatar el vídeo y subirlo a mi canal de Youtube. Ahora puede verse aquí.

Hace no mucho, Radford Neal publicó pqR, una versión de R más rápida. Y algunos os preguntaréis qué es y de dónde salió esa reimplementación.

La respuesta breve es la siguiente: no hace tanto, cuando R iba por la versión 2.13, Neal sugirió una serie de modificaciones (patches) para mejorar el rendimiento de R en algunos aspectos. Creo recordar que eran catorce, aunque bien pudo haber habido otros posteriores. Los desarolladores de R, sin embargo, rechazaron algunos (si no todos) de ellos por motivos de diversa índole pero que se resumen en lo siguiente:

Este miércoles (2013-06-19 en formato ISO 8601: a ver si os vais acostumbrando a él de una bendita vez) hablaré en MediaLab Prado sobre la EPA y más cosas.

Va a ser una charla enteramente antiinstitucional y subversiva. Voy a tratar de abrir varias cajas de Pandora y liberar los correspondientes demonios. Y no voy a tener piedad con las neuronas de los asistentes: quienes acudan, que traigan unos sudokus hechos de casa a modo de calentamiento.

Es la cosa más friqui que he visto en tiempos. “Esto va intravenoso al blog”, me he dicho. Es esto.

Se trata de un paquete de R de Emilio Torres Manzanera con el que se pueden construir gráficos como

al más puro estilo xkcd. Para probarlo,

library(xkcd)
vignette(“xkcd-intro”)

¡Disfrutad!

La semana que viene y con el lema

The Web 1.0 was readable, the Web 2.0 was social, now the web is programmable through application programming interfaces (aka APIs)

se celebrará en Madrid APIdays Mediterranea, un encuentro de entusiastas de las APIs.

Y dentro del programa, el sábado día 1, a la una menos cuarto —una hora compatible con mis poco matutinos hábitos—, tengo asignado el taller Rapidays: Quick introduction to R & APIs al que están, por supuesto, invitados los lectores de estas páginas (y para los que podría llegar a tener descuentos para el evento completo y entradas gratuitas para mi taller en particular).

Acabo de subir a mi servidor las diapositivas de la charla describiendo un lematizador desambiguado que anuncié el otro día. Gracias a Carlos Ortega y Pedro Concejero, el vídeo de la charla está disponible en Vímeo. Por su parte, las transparencias pueden descargarse aquí.

Quiero agradecer a los asistentes a la charla su interés y, muy particularmente, su participación en el debate que se abrió al final de la sesión. Fue muy enriquecedor.

El jueves 16 de mayo hablaré en el Grupo de Interés Local de Madrid de R sobre lematizadores probabilísticos.

Hablaré sobre el proceso de lematizacion y trataré de mostrar su importancia dentro del mundo del llamado procesamiento del lenguaje natural (NLP). La lematización es un proceso humilde dentro del NLP del que apenas nadie habla: su ejercicio solo ha hecho famoso a Martin Porter. Lo eclipsan otras aplicaciones más vistosas, como el siempre sobrevalorado análisis del sentimiento. Sin embargo, es una pieza fundamental que subyace (o debería subyacer) en cualquier aplicación seria que analice textos.

Sigo con mi lacónica serie sobre data.table.

La protagonista:

frases[sample(1:nrow(frases), 3),]
#pos.es pos.en length.es length.en en        es frase          tfe      qjilm          num
#1:     15     43        72        72  i        de  2632 4.881416e-02 0.01369863 6.686871e-04
#2:     33     48        46        48  X    países  5321 2.726146e-06 0.02040816 5.563563e-08
#3:      2     35        53        66 in preguntar  4582 2.424379e-08 0.01492537 3.618476e-10
dim(frases)
#[1] 6340091      10

El tiempo:

system.time({
    setkey(frases, "frase", "es")
    denominadores <- frases[, sum(num), by = key(frases)]
    setnames(denominadores, c("frase", "es", "den") )
    frases <- merge(frases, denominadores)
    frases$delta <- frases$num / frases$den
})
#user  system elapsed
#5.628   0.208   5.841

En particular,

R

Las V Jornadas de Usuarios de R, en Zaragoza

¿Nos ayudáis a mejorar r-es.org?

Vídeo de la charla sobre la EPA (y más cosas) en Medialab Prado

Coda

pqR: un R más rápido

Hablaré de la EPA (y más cosas) en Medialab Prado

La cosa más friqui que he visto en...

APIdays Mediterranea, la semana que viene

Mi charla sobre un lematizador probabilístico con R (vídeo y diapositivas)

Charla: un lematizador probabilístico con R

data.table (II): agregaciones