useR!, en Warwick, dentro de un mes

Dentro de un mes tendrá lugar la conferencia internacional de usuarios de R, useR!, en Warwick, R.U. A partir del documento que resume las ponencias, usando el paquete tm de R y Wordle para la parte artística, he creado la siguiente nube de palabras: Y ya que toco estos temas, menciono dos: ¿Os habéis puntado a las III Jornadas de Usuarios de R? ¿Qué lematizador utilizáis en español? ¿Cuál os gusta más?

6 de julio de 2011 · Carlos J. Gil Bellosta

Paquetes huérfanos de R

Ayer hablaba con Juan José Gibaja (al que finalmente conocí en persona) y me contaba cómo había usado un paquete de R —no recuerdo cuál— que misteriosamente había desaparecido de CRAN. —¡Imposible! Los paquetes no desaparecen: quedan huérfanos. Efectivamente, en la lista de paquetes de CRAN, abajo, se mencionan los llamados paquetes húerfanos. Según el README, se trata de paquetes cuyos autores o mantenedores han decidido desentenderse del paquete o los mensajes que les envían desde CRAN rebotan o no son contestados. Tales paquetes pasan al estado ORPHANED y se mantienen en CRAN mientras pasen los checks. Pero, conforme avanzan las versiones de R, puede que algunos de esos paquetes dejen de compilar y entonces son archivados. Existe una lista de paquetes huérfanos archivados cuya última versión puede encontrarse aquí. ...

1 de julio de 2011 · Carlos J. Gil Bellosta

Desarrollo de paquetes con R (II): primeros pasos

La segunda entrada en mi serie sobre la creación de paquetes con R cubre los primeros pasos en la creación de uno. Bastan para tener una primera versión de un paquete en minutos. Pero antes, unos consejos generales: Usar algún tipo de sistema operativo basado en Unix: Linux, Mac OS, etc. o Cygwin en el peor de los casos. Tengo que confesar que yo comencé a usar Linux precisamente por este motivo: los procedimientos y herramientas que se utilizan para construir paquetes de R están influenciados por la tradición Unix. Es cierto que se han creado herramientas para poder desarrollarlos desde Windows pero, después de haber trabajado en Linux, me parecen incómodas y antinaturales: pasar de Linux a Windows es como pasar del Ferrari al borriquillo. Registrar el proyecto en R-Forge, como ya hemos comentado previamente. Dadas sus ventajas —siendo una de las principales permitir probar el paquete sobre varias plataformas distintas (Linux, Mac y Windows) automáticamente—solo se me ocurre un motivo para no utilizarlo: como el código está públicamente disponible, no es válido para desarrollar aplicaciones cerradas y propietarias. Utilizar subversion (o git). Si el proyecto se aloja en R-Forge, subversion es la opción por defecto. Utilizar subversion permite gestionar mejor el desarrollo del paquete y facilita la colaboración entre los diversos autores. La manera en la que recomiendo comenzar a crear un paquete es partiendo de una serie de funciones ya desarrolladas previamente. Ni siquiera hace falta que estén terminadas ni que funcionen correctamente. Por ejemplo, podemos tener las dos funciones siguientes: ...

30 de junio de 2011 · Carlos J. Gil Bellosta

Sweave, investigación reproducible... y más

Me consta que algunos de mis lectores están al tanto de eso que llaman investigación reproducible. De acuerdo con la Wikipedia (en inglés), [E]l término investigación reproducible se atribuye a Jon Claerbout, de la Universidad de Stanford y se refiere a la idea de que el producto final de la investigación no debería circunscribirse a un artículo sino comprender también el entorno computacional completo usado en la generación de los resultados que contiene, tales como el código, los datos, etc., para que puedan ser reproducidos y se pueda avanzar a partir de ellos. ...

23 de junio de 2011 · Carlos J. Gil Bellosta

Desarrollo de paquetes con R (I): ¿para qué?

Por popular demanda, voy a comenzar una serie de entradas sobre desarrollo de paquetes con R. Mi idea consiste en establecer un diálogo con mis lectores que me permita pulirlas para acabar escribiendo un documento que pueda resultar útil a los usuarios de R. En el primero me voy a limitar a explicar para qué puede resultar útil desarrollar paquetes. Lo voy a hacer desde mi experiencia de desarrollador y desde el particular punto de vista de mis hábitos y manías personales. Y no sería justo proseguir sin anunciar (o confesar) que una de las más pugnaces es la de mi aversión al caos. ...

21 de junio de 2011 · Carlos J. Gil Bellosta

Una herramienta para construir paquetes de R sobre Windows

Construir paquetes multiplataforma con R supone todo un reto para quienes tenemos un acceso limitado o nulo a determinados sistemas operativos. En particular, a muchos nos resulta complicado acceder a una máquina Windows con todas las herramientas necesarias para crear y comprobar los paquetes. Pero Uwe Ligges, el encargado de los paquetes binarios de Windows para CRAN, ha puesto en funcionamiento un servicio para poder compilarlos. En la página de información de este servicio pueden consultarse las instrucciones para subir los paquetes y los caveats: ...

15 de junio de 2011 · Carlos J. Gil Bellosta

Minitutorial de subversion

Por popular demanda, voy a ilustrar en esta entrada el uso de subversion para el desarrollo colaborativo de software. Lo escribo teniendo en mente el desarrollo de paquetes alojados en R-Forge y para usuarios de sistemas operativos más o menos decentes. A quienes usan Windows les recomiendo Tortoise, cuyo uso queda fuera del alcance de lo que sigue. En primer lugar, para los desavisados: subversion es un programa para gestionar versiones de ficheros. A usuarios particulares, les permite mantener fotos de tu trabajo (¿cómo estaba mi libro/tesis/código hace un mes?). Cuando varias personas trabajan en un mismo proyecto, les permite controlar quién ha hecho qué, cuándo y por qué; además, que cada uno de los integrantes del proyecto trabaje sobre su propia copia del código, aunque mandando su cambios a un repositorio central y recibiendo, claro está, los cambios del resto del equipo. ...

13 de junio de 2011 · Carlos J. Gil Bellosta

Datos públicos, datos DUP

Hoy en día, en España, salvo por unas cuantas honrosas excepciones no existen datos públicos, solo datos manejados dentro de las administraciones públicas (y a los que los ciudadanos no tienen acceso). Los datos públicos deberían ser datos DUP: disponibles, ubicables y procesables. Existen d-iniciativas en España. Sería injusto no reconocer que administraciones y organismos públicos no han venido haciendo un esfuerzo (todo lo desigual e insuficiente que se quiera) por poner su información al alcance de la ciudadanía. Me honra como zaragozano encontrar al ayuntamiento de mi ciudad entre los pioneros. ...

10 de junio de 2011 · Carlos J. Gil Bellosta

Gestión de proyectos en R

Muchos de mis lectores tienen, seguro, maneras distintas —y probablemente mejores— de organizar sus proyectos en R que yo. Pero me consta que a algunos les cuesta no convertir sus carpetas en un caos en los que solo ellos se manejan —hasta que pasa el tiempo, se olvidan y tienen que volver sobre ello—. Para ellos, para sugerirles un procedimiento eficiente de trabajo, va esta entrada. En ella describo cómo organizo mis propios proyectos con R. ...

8 de junio de 2011 · Carlos J. Gil Bellosta

Sobre la encuesta sobre minería de datos de Rexer Analytics

Hace unos días se publicaron los resultados de la cuarta encuesta anual de minería de datos realizada por Rexer Analytics en la que 735 participantes de 60 países completaron sus 50 preguntas. Los hechos más relevantes que contiene son: La principal aplicación de la minería de datos (siempre pienso que desgraciadamente) es en el campo de la gestión (o inteligencia) de clientes, lo que por ahí denominan CRM. Los algoritmos más usados por los encuestados han sido árboles de decisión, regresión y análisis de conglomerados. En cuanto a las herramientas, la más utilizada es R. El 43% de los encuestados afirmaron haberlo usado. Sin embargo, como herramienta básica de trabajo, la más usada parece ser STATISTICA, usada por un 18% de los encuestados. Las herramientas mejor valoradas fueron STATISTICA, IBM SPSS Modeller y R. La mayor parte del análisis sigue realizándose en ordenadores personales, con los datos almacenados en local. Lo mismo ocurre a la hora de realizar el scoring. Los usuarios que más utilizan PMML son quienes emplean STATISTICA. Y más detalles pueden descargarse de la página de la encuesta.

2 de junio de 2011 · Carlos J. Gil Bellosta