Nunca más de cinco

Me preguntan a veces por qué me gusta leer The Economist (¿porque se nota que lo escribe gente muy inteligente, para variar?). Y me pregunto yo por qué leo a veces McKinsey Quarterly (¿porque es gratis? ¿porque me aburro?). Lo que tiene la primera publicación de agudo, lo tiene la segunda de fome. Pero no todo es desaprovechable. En una de las últimas ediciones, traía la revista un breve resumen de un libro, Brainsteering, sobre el asunto del llamado brainstorming. Más bien, sobre cómo hacerlo menos enojoso y más eficaz. Quien se sienta intrigado, podrá encontrar siete consejos, probablemente buenos, aquí. ...

11 de abril de 2011 · Carlos J. Gil Bellosta

Paralelización de bucles con foreach

Parcialmente en agradecimiento a Revolution Analytics por haber concedido una subvención a las III Jornadas de usuarios de R voy a discutir en esta entrada cómo paralelizar bucles usando los paquetes foreach y doMC desarrollados por dicha empresa. El paquete foreach contiene, esencialmente, una única función, foreach, que, en su forma más básica, permite ejecutar bucles con una sintaxis un tanto peculiar: foreach( i = 1:3 ) %do% log( i ) Volveré sobre algunas operaciones interesantes y bastante útiles que permite realizar esta función porque, de todas ellas, hoy me ocuparésolo de una: la que abre la puerta de una manera sencilla a la paralelización de bucles. ...

8 de abril de 2011 · Carlos J. Gil Bellosta

Nueva versión de paquete colbycol

Hace unos días subí a CRAN la última versión de mi paquete colbycol. Incluí algunas mejoras sugeridas por uno de sus usuarios así como otras que estaban esperando a que liberase mi agenda. Además, añadí un pequeño tutorial en la página del paquete. El paquete colbycol está pensado para resolver —aunque solo sea parcialmente— uno de los problemas más acuciantes de quienes usamos R para el análisis de datos muy grandes: leer ficheros de datos de gran tamaño. ...

7 de abril de 2011 · Carlos J. Gil Bellosta

¿Cuál es la esencia de la estadística?

¿Qué tienen que ver minería de datos y estadística? Podría opinar personalmente sobre el asunto, pero serviré en esta ocasión de pregonero de las ideas que Jerome H. Friedman dejó escritas al respecto. Aunque el artículo tiene ya sus casi quince años, las ideas que contiene están todavía en plena vigencia. Comienza el artículo Friedman con un ejercicio irónico acerca de la fiebre del oro que generó (y sigue generando muchos años después) esa disciplina que se dio en llamar minería de datos. Así, se plantea hasta qué punto se trata más de una actividad comercial que propiamente académica; y al respecto comenta cómo, al igual que en casi todas las fiebres del oro que han existido la verdadera rentabilidad está en mining the miners. En plata, sacarles la ídem a los mineros; en particular, vendiéndoles herramientas taumatúrgicas a precios aúricos. ...

6 de abril de 2011 · Carlos J. Gil Bellosta

Gráficos (III): bitácoras

En la tercera entrega de la serie de gráficos quiero dar a conocer una serie de bitácoras que tratan este tema, muchas de ellas escritas por profesionales de la infografía. En orden alfabético son: Climate Charts & Graphs, con infinidad de mapas y gráficas sobre el cambio climático, desarrollados principalmente con R. Datablog, la bitácora del diario británico The Guardian que bajo el lema facts are sacred, hace un periodismo moderno, de primera línea, utilizando un paradigma no textual. Datapointed es el proyecto del (autoproclamado) artista y científico Stephen Von Worley. Excelcharts no es exactamente lo que su nombre indica: de hecho, el autor parece tener un objetivo oculto: hacer progresar al usuario de Excel hacia herramientas de visualización decentes. Flowingdata, un proyecto de Nathan Yau, candidato a doctor en estadística con especialidad en visualización de datos. En Information Aesthetics, según sus autores, form follows data. Más que publicar contenido original, recoge visualizaciones de otros medios. Information is beautiful es el blog de David McCandless, autor de diversos libros sobre la materia y del que no hay que perderse este vídeo. Information & Visualization es, de entre todas las bitácoras que listo en esta entrada, la que contiene unos gráficos más próximos a los que sería posible realizar con R y herramientas similares. Los autores son más estadísticos que diseñadores gráficos. Uno de ellos, de hecho, fue responsable de las herramientas gráficas de KNIME. Junk Charts, o la enciclopedia de la graficaca. En la bitácora de RevolutionAnalytics también es frecuente ver entradas sobre visualización de datos como ésta. Por supuesto, siempre con un característico saboR. Visual Business Intelligence, el blog de Stephen Few, consultor y autor en el mundo de la visualización, con cierto sesgo hacia las aplicaciones en inteligencia de negocios. visualizing.org, que aspira a desentrañar asuntos complejos a través de los datos y el diseño. Trata de cubrir el hueco que media entre quienes poseen y generan los datos (gobiernos, ONGs, etc.) y quienes han sido entrenados en las técnicas de representación gráfica, especialmente diseñadores. ¡Disfrutadlas!

5 de abril de 2011 · Carlos J. Gil Bellosta

Anuncio de las III Jornadas de usuarios de R

Más que me complace anunciar públicamente la convocatoria de las III Jornadas de usuarios de R, que tendrán lugar los días 17 y 18 de noviembre en la Escuela de Organización Industrial, Madrid. Los interesados en asistir, participar y patrocinar —y subrayo lo de patrocinar— podrán encontrar los detalles en la página de las jornadas. Desde esta bitácora, además, quiero invitar muy especialmente a los usuarios y entusiastas de R que trabajan en empresas e instituciones ajenas al mundo académico a aportar su peculiar visión sobre el universo de usos, aplicaciones y experiencias con el lenguaje. ...

4 de abril de 2011 · Carlos J. Gil Bellosta

A esa gente le había hecho falta un matemático

A esa gente le había hecho falta, en efecto, un matemático. Les hubiera bastado saber mi número de teléfono y no habrían cometido tamaña tontería y habrían tenido a sus accionistas más satisfechos. Explicaré el asunto. Será muy instructivo para quienes opinan que no valemos para gran cosa. Hace mucho, mucho tiempo, tanto que las neuronas que se acuerdan de eso están llenas de polvo, en un país muy, muy lejos de este, trabajé en un proyecto cuya naturaleza no viene al caso. Sí que lo hace el que habían codificado el campo identificador de los contratos en su base de datos con un CHAR(26). Sí, efectivamente, usaban veintiséis caracteres para identificar un único contrato. ...

1 de abril de 2011 · Carlos J. Gil Bellosta

Economía y estadística en la Reserva Federal

El grupo de investigación y estadística de la sede de la Reserva Federal en Nueva York ha iniciado un encomiable proyecto de divulgación: una bitácora en la que presentar con un lenguaje accesible los asuntos sobre los que trabajan. Además, y según sus propias palabras, aspiran a entablar un diálogo con sus lectores participando en los debates que se abran en la sección de comentarios. Además de promover esta bitácora, la Reserva Federal quiere estar presente y acudir a donde están los ciudadanos a los que sirve: está en YouTube, Twitter, etc. ...

31 de marzo de 2011 · Carlos J. Gil Bellosta

Chuletario de estadística con SAS

Los pocos usuarios de SAS que lo utilizan para hacer propiamente estadística con él cuentan con un chuletario muy útil que relaciona temas de estadística con funciones, código y documentación relativa al asunto (dentro del universo SAS, por supuesto). Por ejemplo, para el llamado Bivariate Tobit model remite al procedimiento SAS/ETS PROC QLIM. ¿Conocerá alguno de mis lectores un recurso similar para R? Más aún, ¿se animaría alguno a emprenderlo?

30 de marzo de 2011 · Carlos J. Gil Bellosta

Gráficos (II): Herramientas

Comenzaré por lo que en todo debiera ser el final: las herramientas. La herramienta tiene que ajustarse a la función y no a la inversa: no coge el carpintero por la mañana un martillo y busca clavos que clavar el resto de la jornada (igualmente tampoco debieran hablar las empresas en primera instancia con, por ejemplo, SAS a la hora de ahondar en sus capacidades analíticas; pero ésa es otra historia). Pero me permitiré alterar el orden lógico de las cosas porque nadie está obligado a leer cuanto esta bitácora contiene en el orden en que le dio la gana a mis musas sino en el que más le convenga. ...

29 de marzo de 2011 · Carlos J. Gil Bellosta