Una herramienta para construir paquetes de R sobre Windows

Construir paquetes multiplataforma con R supone todo un reto para quienes tenemos un acceso limitado o nulo a determinados sistemas operativos. En particular, a muchos nos resulta complicado acceder a una máquina Windows con todas las herramientas necesarias para crear y comprobar los paquetes. Pero Uwe Ligges, el encargado de los paquetes binarios de Windows para CRAN, ha puesto en funcionamiento un servicio para poder compilarlos. En la página de información de este servicio pueden consultarse las instrucciones para subir los paquetes y los caveats: ...

15 de junio de 2011 · Carlos J. Gil Bellosta

La historia de CART (una segunda parte)

Los árboles de decisión representan la familia de métodos de minería de datos más empleados. Y no sé si todos mis lectores están al tanto de sus orígenes. La verdad es que ya escribí al respecto, hace tiempo, cuando hacía mis primeros pinitos en el mundo de las bitácoras y escribía en la de Raúl Vaquerizo. Entonces publiqué una entrada sobre la historia de CART y rpart de su implementación en R. ...

14 de junio de 2011 · Carlos J. Gil Bellosta

Minitutorial de subversion

Por popular demanda, voy a ilustrar en esta entrada el uso de subversion para el desarrollo colaborativo de software. Lo escribo teniendo en mente el desarrollo de paquetes alojados en R-Forge y para usuarios de sistemas operativos más o menos decentes. A quienes usan Windows les recomiendo Tortoise, cuyo uso queda fuera del alcance de lo que sigue. En primer lugar, para los desavisados: subversion es un programa para gestionar versiones de ficheros. A usuarios particulares, les permite mantener fotos de tu trabajo (¿cómo estaba mi libro/tesis/código hace un mes?). Cuando varias personas trabajan en un mismo proyecto, les permite controlar quién ha hecho qué, cuándo y por qué; además, que cada uno de los integrantes del proyecto trabaje sobre su propia copia del código, aunque mandando su cambios a un repositorio central y recibiendo, claro está, los cambios del resto del equipo. ...

13 de junio de 2011 · Carlos J. Gil Bellosta

Datos públicos, datos DUP

Hoy en día, en España, salvo por unas cuantas honrosas excepciones no existen datos públicos, solo datos manejados dentro de las administraciones públicas (y a los que los ciudadanos no tienen acceso). Los datos públicos deberían ser datos DUP: disponibles, ubicables y procesables. Existen d-iniciativas en España. Sería injusto no reconocer que administraciones y organismos públicos no han venido haciendo un esfuerzo (todo lo desigual e insuficiente que se quiera) por poner su información al alcance de la ciudadanía. Me honra como zaragozano encontrar al ayuntamiento de mi ciudad entre los pioneros. ...

10 de junio de 2011 · Carlos J. Gil Bellosta

250 aniversario de la muerte de Bayes

Cumpliéndose el 250 aniversario de la muerte de Thomas Bayes (fue el 17 de abril, de hecho), como homenaje, publico hoy una foto del autor al lado de su tumba en el cementerio de Bunhill Fields, en Londres. Nota: es la tumba blanca que aparece casi en el centro. La tomó mi viejo amigo Raúl Aguaviva un día que acabamos perdidos buscando el Museo Británico por un barrio que resultó estar no lejos de Angel. Shame on us!

9 de junio de 2011 · Carlos J. Gil Bellosta

Gestión de proyectos en R

Muchos de mis lectores tienen, seguro, maneras distintas —y probablemente mejores— de organizar sus proyectos en R que yo. Pero me consta que a algunos les cuesta no convertir sus carpetas en un caos en los que solo ellos se manejan —hasta que pasa el tiempo, se olvidan y tienen que volver sobre ello—. Para ellos, para sugerirles un procedimiento eficiente de trabajo, va esta entrada. En ella describo cómo organizo mis propios proyectos con R. ...

8 de junio de 2011 · Carlos J. Gil Bellosta

NComVa y visualización de datos públicos

A la lista de herramientas de visualización y de análisis visual de datos públicos de las que ya hemos hablado en alguna ocasión, tales como Gapminder o Many Eyes, añado hoy unas de cuya existencia he venido a enterarme recientemente: las desarrolladas por la empresa sueca NComVa. La empresa ha desarrollado para algunos de sus clientes portales tales como el del Banco Mundial, The Economist o el del Istat (INE italiano). Los más interesados de mis lectores podrán echarle un vistazo al manual de usuario de la aplicación. Y los que estén todavía más interesados, dar guerra para que INEs y otros organismos públicos españoles —o donde quiera que residan— se pongan a la altura de los tiempos.

7 de junio de 2011 · Carlos J. Gil Bellosta

La tragedia del buen rollito

No sé si mis lectores están al tanto del problema conocido como tragedia de los comunes (que, más bien, debería denominarse tragedia de las dehesas). Consiste en que una serie de agentes económicos (ganaderos) comparten un bien común, que no pertenece a nadie (una dehesa), en la que hacen pastar sus vacas. Todos ellos están interesados en hacer pastar el máximo número posible de ellas. Pero la capacidad de generar pasto de la dehesa es limitada y llega un momento en que ésta se sobreexplota y es incapaz de alimentar tanta vaca. Todos los ganaderos pierden, pero a ninguno le interesa reducir unilateralmente el tamaño de su cañada. ...

6 de junio de 2011 · Carlos J. Gil Bellosta

Explica, el portal divulgativo del INE

Me acaban de hacer llegar la noticia, via Twitter, de la existencia de Explica, el portal divulgativo del INE. Según sus propias palabras, [d]esarrollamos este sitio web con el objetivo de incrementar la cultura estadística en la sociedad y favorecer así el buen uso de la información estadística. Aquí podrás encontrar un conjunto de productos de carácter divulgativo que permiten conocer los principales conceptos en que se basa la elaboración de la información estadística, el contexto en que se desenvuelve la estadística oficial y algunas curiosidades y aplicaciones. ...

3 de junio de 2011 · Carlos J. Gil Bellosta

Sobre la encuesta sobre minería de datos de Rexer Analytics

Hace unos días se publicaron los resultados de la cuarta encuesta anual de minería de datos realizada por Rexer Analytics en la que 735 participantes de 60 países completaron sus 50 preguntas. Los hechos más relevantes que contiene son: La principal aplicación de la minería de datos (siempre pienso que desgraciadamente) es en el campo de la gestión (o inteligencia) de clientes, lo que por ahí denominan CRM. Los algoritmos más usados por los encuestados han sido árboles de decisión, regresión y análisis de conglomerados. En cuanto a las herramientas, la más utilizada es R. El 43% de los encuestados afirmaron haberlo usado. Sin embargo, como herramienta básica de trabajo, la más usada parece ser STATISTICA, usada por un 18% de los encuestados. Las herramientas mejor valoradas fueron STATISTICA, IBM SPSS Modeller y R. La mayor parte del análisis sigue realizándose en ordenadores personales, con los datos almacenados en local. Lo mismo ocurre a la hora de realizar el scoring. Los usuarios que más utilizan PMML son quienes emplean STATISTICA. Y más detalles pueden descargarse de la página de la encuesta.

2 de junio de 2011 · Carlos J. Gil Bellosta