R

Disponibles los vídeos de las charlas de las III Jornadas de Usuarios de R

R

En las Jornadas de Usuarios de R íbamos a tener la posibilidad de grabar las charlas en vídeo pero resultó que no: aunque la EOI nos brindaba la infraestructura necesaria para la grabación y la retransmisión de las jornadas, corría por cuentra nuestra el pagar al operador de las cámaras, etc. Y éramos pobres.

Nos íbamos pues a quedarnos sin retransmisión en directo hasta que, a las dos de la tarde del día anterior, recibí este mensaje de Jose Antonio Palazón:

Gráficos de embudo para controlar la varianza en muestras pequeñas

Publiqué hace un tiempo una entrada en esta bitácora sobre el problema que representa la desigualdad de los tamaños muestrales a la hora de comprender cierto tipo de datos, como por ejemplo, los que trata de representar el gráfico

que muestra la incidencia del cáncer de riñón en distintas zonas de en EE.UU. Como indiqué entonces, los valores extremos se encuentran en zonas menos pobladas: cuanto menor es la población, más probables son las proporciones inhabituales.

Un lematizador para el español con R... ¿cutre? ¿mejorable?

Nlp, R

Uno de los pasos previos para realizar lo que se viene llamando minería de texto es lematizar el texto. Desafortunadamente, no existen buenos lematizadores en español. Al menos, buenos lematizadores libres.

Existen el llamado algoritmo de porter y snowball pero, o son demasiado crudos o están más pensados para un lenguaje con muchas menos variantes morfológicas que el español.

Sinceramente, no sé a qué se dedican —me consta que los hay— los lingüistas computacionales de la hispanidad entera: ¿no son capaces de liberar una herramienta de lematización medianamente decente que podamos usar los demás? Lo más parecido a esa herramienta aparentemente inexistente que conozco es Grampal, que funciona a través de una interfaz web.

Bajo el capó de teradataR

R

Me gustaría haber podido indagar bajo el capó de teradataR, el paquete de R desarrollado por Teradata que permite que R realice lo que llaman por ahí _in database analytics _utilizando dicha plataforma propietaria.

Ya lo probé hace un tiempo con resultados bastante desiguales y que distaban muy mucho de mis expectativas originales, habida cuenta de las muchas bondades del gestor relacional. Durante mucho tiempo he tenido la intención de desentrañar los secretos del paquete, pero me contuvieron los términos desacostumbradamente restrictivos de la licencia:

Creación de un "R portable"

R

Se supone que R, que está disponible en una multitud de plataformas y sin coste, debería poder instalarse por doquier. Pero sucede en ocasiones que sus usuarios sólo disponen de plataformas muy cerradas, sin acceso a privilegios de administración, en organizaciones hostiles al software libre, etc.

La solución para poder seguir disfrutando del poder de R en tales circunstancias puede pasar por la utilización de una versión portable de R: una que arranque desde un pincho de memoria sin interferir con el resto del software de la máquina ni requerir permisos de escritura en directorios vetados.

R en la enseñanza: unos comentarios a los comentarios

Iba a responder a los comentarios de mi entrada sobre las Jornadas de R y, muy en particular a los de Fernando Fernández, uno de los más fieles lectores de esta bitácora, y me he extendido tanto que he acabado convirtiéndola en una nueva. Pido excusas por haber tal vez abusado de mis prerrogativas para auparme de esta manera.

Tanto a él como a otros les chirrió que escribiese comenzamos una nueva época que en el plazo de tres o cuatro años nos va a conducir, con casi total seguridad, a un escenario en el que […] R se use de manera casi exclusiva en la enseñanza de la estadística en los niveles universitarios.

Grupo de trabajo sobre periodismo de datos en Madrid

El miércoles pasado, en el Medialab Prado de Madrid tuvo lugar la primera reunión del grupo de trabajo sobre Periodismo de datos. Contó con la presencia de Alberto Cairo, cuyo reciente libro, El arte funcional, espero que pase a engrosar mi colección pronto.

En el programa aparecen sesiones tan interesantes como las siguientes:

  • 12.01.2012. Mini taller y charla sobre la captura de datos.
  • 09.02.2012. Mini taller y charla sobre el análisis y el tratamiento de los datos
  • 08.03.2012. Mini taller y charla sobre la presentación y visualización de los datos.

Tengo la impresión de que la comunidad de usuarios de R tiene mucho que aportar a esta iniciativa tan radical en el mundo del periodismo. De hecho, Amanda Cox, del New York Times, ha participado en grupos de usuarios de R mostrando cómo los ayuda a desarrollar su labor.

III Jornadas de Usuarios de R: algunas reflexiones

R

La semana pasada no actualicé mi bitácora. Nunca había dejado pasar tanto tiempo sin escribir. Y es que, por si alguien no se había enterado aún, el jueves y el viernes tuvieron lugar las III Jornadas de Usuarios de R.

Hace dos años escribí un pequeño resumen sobre las primeras. El año pasado me atreví a hacer lo mismo con las segundas. Pero, lo siento, este año me excede el hacerlo para las terceras. Y es que han excedido en mucho la dimensión de las anteriores:

Disponible el programa de las III Jornadas de Usuarios de R

R

Acaba de publicarse el programa (casi) definitivo de las III Jornadas de Usuarios de R. Los números son impresionantes: 44 ponencias, una conferencia plenaria de primerísimo nivel, 5 talleres, más de 200 asistentes (estimados),…

Además, dentro de las Jornadas se discutirán y aprobarán los estatutos de la futura Asociación de Usuarios de R (nombre tentativo).

¿Nos veremos todos en 10 días?

Oracle R Enterprise

R

Repugna un tanto ver a R entre las palabras Oracle y Enterprise. Sobre todo siendo Oracle una compañía tan opuesta al espíritu del software libre. Pero es de celebrar que nuestra herramienta de elección esté penetrando el sancta sanctorum del software propietario. Y eso que Oracle se hizo años ya con Thinking Machines, empresa pionera en el campo de la minería de datos y cuyos algoritmos acabaron integrados en Oracle Data Mining.

Herramientas de depuración en R

R

R dispone de un conjunto de herramientas para depurar (debug) programas. Yo suelo usar la función debug de manera casi exclusiva y sistemática, pero leyendo The Art of R Programming he dado con una discusión sistemática sobre el proceso de depuración así como algunas herramientas adicionales.

Una de las primeras que menciona el libro es la función stopifnot, que puede ser intercalada en el código para verificar condiciones necesarias (y lanzar un error en caso de que no se cumplan):

Necesitamos una Asociación de Usuarios de R

R

Efectivamente, necesitamos una Asociación de Usuarios de R. Por ejemplo, durante la organización de las III Jornadas de Usuarios de R nos hemos enfrentado a muchos problemas que habrían sido mucho más llevaderos de contar con el paraguas institucional de un NIF. El número de actividades a las que una asociación podría dar cobertura es, con un poco de imaginación y generosidad, sumamente amplio.

Después de un par de arranques en falso, la cosa va en serio. Tenemos una propuesta de estatutos. Y durante las III Jornadas se procederá a su aprobación de manera que comience a andar. Por eso invito a quienes siguen esta bitácora a echarles un vistazo, acudir a las jornadas e implicarse en el desarrollo de la asociación.