Desarrollo de paquetes con R (I): ¿para qué?

Por popular demanda, voy a comenzar una serie de entradas sobre desarrollo de paquetes con R. Mi idea consiste en establecer un diálogo con mis lectores que me permita pulirlas para acabar escribiendo un documento que pueda resultar útil a los usuarios de R. En el primero me voy a limitar a explicar para qué puede resultar útil desarrollar paquetes. Lo voy a hacer desde mi experiencia de desarrollador y desde el particular punto de vista de mis hábitos y manías personales. Y no sería justo proseguir sin anunciar (o confesar) que una de las más pugnaces es la de mi aversión al caos. ...

21 de junio de 2011 · Carlos J. Gil Bellosta

UbiData.org, disponible en beta

He hablado en estas páginas de zanran, un Google para datos, y de GetTheData, su versión social. Hora es cumplida de que mencione a UbiData, el GetTheData en español. UbiData (en latín, ¿dónde están los datos?) es un portal que he creado para que la comunidad hispanoparlante pueda intercambiar información sobre dónde encontrar conjuntos de datos. Está principalmente pensado para facilitar la labor de investigadores, estadísticos, estudiantes, periodistas, etc. que quieren estudiar un determinado asunto y no logran dar con esa información que tiene que estar en algún sitio pero que no se deja encontrar en la maraña de enlaces, sugerencias confusas o desactualizadas. ...

20 de junio de 2011 · Carlos J. Gil Bellosta

Grandes números

400 euros cuesta un disco duro en el que almacenar toda la música del mundo Hay 5.000 millones de teléfonos móviles funcionando 30.000 millones de contenidos circulan por Facebook cada mes Los datos generados mundialmente crecen un 40%, frente al 5% que se incrementa el gasto en tecnologías de la información La biblioteca del Congreso de Estados Unidos almacena 235 TB de información Pero las compañías de 15 de 17 sectores económicos de EE.UU. poseen bases de datos aún mayores El valor que pueden aportar los datos de salud en EE.UU. podría superar los 300 millardos de dólares, el doble que el gasto sanitario en España Y 250 millardos de valor a las administraciones públicas europeas, más que el PIB de Grecia Para saber más, el informe de McKinsey sobre datos grandes completo. ...

17 de junio de 2011 · Carlos J. Gil Bellosta

Una herramienta para construir paquetes de R sobre Windows

Construir paquetes multiplataforma con R supone todo un reto para quienes tenemos un acceso limitado o nulo a determinados sistemas operativos. En particular, a muchos nos resulta complicado acceder a una máquina Windows con todas las herramientas necesarias para crear y comprobar los paquetes. Pero Uwe Ligges, el encargado de los paquetes binarios de Windows para CRAN, ha puesto en funcionamiento un servicio para poder compilarlos. En la página de información de este servicio pueden consultarse las instrucciones para subir los paquetes y los caveats: ...

15 de junio de 2011 · Carlos J. Gil Bellosta

La historia de CART (una segunda parte)

Los árboles de decisión representan la familia de métodos de minería de datos más empleados. Y no sé si todos mis lectores están al tanto de sus orígenes. La verdad es que ya escribí al respecto, hace tiempo, cuando hacía mis primeros pinitos en el mundo de las bitácoras y escribía en la de Raúl Vaquerizo. Entonces publiqué una entrada sobre la historia de CART y rpart de su implementación en R. ...

14 de junio de 2011 · Carlos J. Gil Bellosta

Minitutorial de subversion

Por popular demanda, voy a ilustrar en esta entrada el uso de subversion para el desarrollo colaborativo de software. Lo escribo teniendo en mente el desarrollo de paquetes alojados en R-Forge y para usuarios de sistemas operativos más o menos decentes. A quienes usan Windows les recomiendo Tortoise, cuyo uso queda fuera del alcance de lo que sigue. En primer lugar, para los desavisados: subversion es un programa para gestionar versiones de ficheros. A usuarios particulares, les permite mantener fotos de tu trabajo (¿cómo estaba mi libro/tesis/código hace un mes?). Cuando varias personas trabajan en un mismo proyecto, les permite controlar quién ha hecho qué, cuándo y por qué; además, que cada uno de los integrantes del proyecto trabaje sobre su propia copia del código, aunque mandando su cambios a un repositorio central y recibiendo, claro está, los cambios del resto del equipo. ...

13 de junio de 2011 · Carlos J. Gil Bellosta

Datos públicos, datos DUP

Hoy en día, en España, salvo por unas cuantas honrosas excepciones no existen datos públicos, solo datos manejados dentro de las administraciones públicas (y a los que los ciudadanos no tienen acceso). Los datos públicos deberían ser datos DUP: disponibles, ubicables y procesables. Existen d-iniciativas en España. Sería injusto no reconocer que administraciones y organismos públicos no han venido haciendo un esfuerzo (todo lo desigual e insuficiente que se quiera) por poner su información al alcance de la ciudadanía. Me honra como zaragozano encontrar al ayuntamiento de mi ciudad entre los pioneros. ...

10 de junio de 2011 · Carlos J. Gil Bellosta

250 aniversario de la muerte de Bayes

Cumpliéndose el 250 aniversario de la muerte de Thomas Bayes (fue el 17 de abril, de hecho), como homenaje, publico hoy una foto del autor al lado de su tumba en el cementerio de Bunhill Fields, en Londres. Nota: es la tumba blanca que aparece casi en el centro. La tomó mi viejo amigo Raúl Aguaviva un día que acabamos perdidos buscando el Museo Británico por un barrio que resultó estar no lejos de Angel. Shame on us!

9 de junio de 2011 · Carlos J. Gil Bellosta

Gestión de proyectos en R

Muchos de mis lectores tienen, seguro, maneras distintas —y probablemente mejores— de organizar sus proyectos en R que yo. Pero me consta que a algunos les cuesta no convertir sus carpetas en un caos en los que solo ellos se manejan —hasta que pasa el tiempo, se olvidan y tienen que volver sobre ello—. Para ellos, para sugerirles un procedimiento eficiente de trabajo, va esta entrada. En ella describo cómo organizo mis propios proyectos con R. ...

8 de junio de 2011 · Carlos J. Gil Bellosta

NComVa y visualización de datos públicos

A la lista de herramientas de visualización y de análisis visual de datos públicos de las que ya hemos hablado en alguna ocasión, tales como Gapminder o Many Eyes, añado hoy unas de cuya existencia he venido a enterarme recientemente: las desarrolladas por la empresa sueca NComVa. La empresa ha desarrollado para algunos de sus clientes portales tales como el del Banco Mundial, The Economist o el del Istat (INE italiano). Los más interesados de mis lectores podrán echarle un vistazo al manual de usuario de la aplicación. Y los que estén todavía más interesados, dar guerra para que INEs y otros organismos públicos españoles —o donde quiera que residan— se pongan a la altura de los tiempos.

7 de junio de 2011 · Carlos J. Gil Bellosta