Posts

Desarrollo de paquetes con R (II): primeros pasos

La segunda entrada en mi serie sobre la creación de paquetes con R cubre los primeros pasos en la creación de uno. Bastan para tener una primera versión de un paquete en minutos. Pero antes, unos consejos generales: Usar algún tipo de sistema operativo basado en Unix: Linux, Mac OS, etc. o Cygwin en el peor de los casos. Tengo que confesar que yo comencé a usar Linux precisamente por este motivo: los procedimientos y herramientas que se utilizan para construir paquetes de R están influenciados por la tradición Unix. Es cierto que se han creado herramientas para poder desarrollarlos desde Windows pero, después de haber trabajado en Linux, me parecen incómodas y antinaturales: pasar de Linux a Windows es como pasar del Ferrari al borriquillo. Registrar el proyecto en R-Forge, como ya hemos comentado previamente. Dadas sus ventajas —siendo una de las principales permitir probar el paquete sobre varias plataformas distintas (Linux, Mac y Windows) automáticamente—solo se me ocurre un motivo para no utilizarlo: como el código está públicamente disponible, no es válido para desarrollar aplicaciones cerradas y propietarias. Utilizar subversion (o git). Si el proyecto se aloja en R-Forge, subversion es la opción por defecto. Utilizar subversion permite gestionar mejor el desarrollo del paquete y facilita la colaboración entre los diversos autores. La manera en la que recomiendo comenzar a crear un paquete es partiendo de una serie de funciones ya desarrolladas previamente. Ni siquiera hace falta que estén terminadas ni que funcionen correctamente. Por ejemplo, podemos tener las dos funciones siguientes: ...

Visualización de datos con Weave

Weave es una plataforma de visualización de datos desarrollada por el Institute for Visualization and Perception Research de la Universidad de Massachusetts en colaboración con el Open Indicators Consortium. A pesar de su buen aspecto, no he tenido tiempo de probarlo. Pero, aprovechando que se acercan las vacaciones, tal vez alguno de mis lectores puede hacerlo y dejar una nota sobre su funcionamiento, ventajas, desventajas y posibilidades. ¿Algún voluntario?

Google Refine para analizar, estudiar y limpiar los datos

En esta entrada de hoy, hija de la pereza, reproduzco un vídeo que el lector puede encontrar igualmente en Medialab Prado. Es una presentación de Javier de la Torre, de Vizzuality, una compañía que trabaja en un campo del que nos hemos venido ocupando en estas páginas: la visualización de la información. La presentación tuvo lugar el 15 de febrero de 2011 dentro del evento Barcamp: periodismo de datos. Trata sobre Google Refine.

Estadística "como Dios manda"

No sé si sería ésa la traducción más afortunada de straight statistics. Probablemente no. Pero tal vez recoge la idea. Y tampoco tengo esta noche tiempo ni cabeza para distingos y connotaciones. Pero supongo que interesará a mis lectores conocer… … una campaña promovida por periodistas y estadísticos para contribuir a mejorar la comprensión y el uso de la estadística por el gobierno, los políticos, las empresas, los anunciantes y los medios de comunicación. Denunciando las malas prácticas y premiando las buenas, esperamos contribuir a restaurar la confianza pública en la estadística. ...

Sobre el libro "The flaw of averages"

Leí hace un tiempo The flaw of averages, un libro poco convencional que recomiendo a mis lectores. Su objetivo último es encomiable: conseguir que personas sin mayor preparación matemática o estadística pero obligadas a tomar decisiones frente a la incertidumbre apliquen el sentido común y entiendan claramente unos principios mínimos. Para lograrlo, asume una postura tal vez anti-intelectualista, tal vez herética. Piensa el autor —¿con motivo?— que, a ciertas personas, conceptos tales como varianza, media, teorema central del límite o función de densidad les dificultan, más que facilitan, la comprensión de lo que la incertidumbre realmente es y de cómo puede afectarlos. ¡Cuánta gente se conforma con conocer la media (p.e., de una estimación)! ...

Sweave, investigación reproducible... y más

Me consta que algunos de mis lectores están al tanto de eso que llaman investigación reproducible. De acuerdo con la Wikipedia (en inglés), [E]l término investigación reproducible se atribuye a Jon Claerbout, de la Universidad de Stanford y se refiere a la idea de que el producto final de la investigación no debería circunscribirse a un artículo sino comprender también el entorno computacional completo usado en la generación de los resultados que contiene, tales como el código, los datos, etc., para que puedan ser reproducidos y se pueda avanzar a partir de ellos. ...

Diez mandamientos del análisis de datos

Extraigo de la bitácora de Rob J Hyndman y de una manera que roza el plagio mi entrada de hoy. Recoge diez reglas, diez mandamientos para el análisis de datos (en realidad, para el análisis econométrico, pero pueden trasladarse casi sin cambios al ámbito general) propuestas por Peter Kennedy. Son las siguientes: Usa el sentido común (y la teoría económica) Evita el error de tipo III (encontrar la respuesta adecuada a la pregunta incorrecta) Conoce el contexto Inspecciona los datos KISS (Keep It Sensibly Simple) Asegúrate de que tus resultados tienen sentido Considera los beneficios y los costes de la minería de datos Estáte preparado para aceptar soluciones de compromiso No confundas significancia con relevancia Acompaña tus resultados de un análisis de la sensibilidad El lector interesado puede echar un vistazo a la discusión de estas reglas.

Desarrollo de paquetes con R (I): ¿para qué?

Por popular demanda, voy a comenzar una serie de entradas sobre desarrollo de paquetes con R. Mi idea consiste en establecer un diálogo con mis lectores que me permita pulirlas para acabar escribiendo un documento que pueda resultar útil a los usuarios de R. En el primero me voy a limitar a explicar para qué puede resultar útil desarrollar paquetes. Lo voy a hacer desde mi experiencia de desarrollador y desde el particular punto de vista de mis hábitos y manías personales. Y no sería justo proseguir sin anunciar (o confesar) que una de las más pugnaces es la de mi aversión al caos. ...

UbiData.org, disponible en beta

He hablado en estas páginas de zanran, un Google para datos, y de GetTheData, su versión social. Hora es cumplida de que mencione a UbiData, el GetTheData en español. UbiData (en latín, ¿dónde están los datos?) es un portal que he creado para que la comunidad hispanoparlante pueda intercambiar información sobre dónde encontrar conjuntos de datos. Está principalmente pensado para facilitar la labor de investigadores, estadísticos, estudiantes, periodistas, etc. que quieren estudiar un determinado asunto y no logran dar con esa información que tiene que estar en algún sitio pero que no se deja encontrar en la maraña de enlaces, sugerencias confusas o desactualizadas. ...

Grandes números

400 euros cuesta un disco duro en el que almacenar toda la música del mundo Hay 5.000 millones de teléfonos móviles funcionando 30.000 millones de contenidos circulan por Facebook cada mes Los datos generados mundialmente crecen un 40%, frente al 5% que se incrementa el gasto en tecnologías de la información La biblioteca del Congreso de Estados Unidos almacena 235 TB de información Pero las compañías de 15 de 17 sectores económicos de EE.UU. poseen bases de datos aún mayores El valor que pueden aportar los datos de salud en EE.UU. podría superar los 300 millardos de dólares, el doble que el gasto sanitario en España Y 250 millardos de valor a las administraciones públicas europeas, más que el PIB de Grecia Para saber más, el informe de McKinsey sobre datos grandes completo. ...