Cambios cosméticos en el blog

Acabo de realizar unos cuantos cambios, mayormente cosméticos, en mi blog. He añadido una lista de artículos recomendados al final de cada entrada, he eliminado el enlace a la entrada aleatoria, he incluido una lista de los últimos comentarios y, finalmente, he añadido propaganda contextual de Google. Lo he hecho por dos motivos. El primero es pecuniario, obviamente. No espero que me retire ni que me permita dejar de tener que madrugar. Nada de eso. Pero tal vez sí que me cubra un porcentajillo de los vicios. ...

3 de octubre de 2010 · Carlos J. Gil Bellosta

¿Por qué no una competición?

Después de haber hablado de competiciones de minería de datos, participado en una con mediano éxito y entrado en contacto con sus organizadores a raíz de eso, escribo para pulsar la opinión de mis lectores acerca de si es plausible que en un futuro empresas y organizaciones varias vean como una opción viable para resolver sus problemas analíticos el plantearlos como una competición abierta a quien quiera participar en ella. Marcin Wojnarski, del equipo que gestiona TunedIT, la plataforma sobre la que se organizó la competición a la que me refiero, me hizo llegar un documento en el que se enumeran las ventajas que supondrían para las empresas este tipo de competiciones sobre el método tradicional de afrontar las tareas analíticas. Obviamente, enumera las ventajas, que son muchas, manifiestas y muy de mi particular parecer. También, en comunicación personal (y por eso no los hago públicos), me ha participado los costes que tendría para una empresa organizar una competición a través de su plataforma. ...

3 de octubre de 2010 · Carlos J. Gil Bellosta

Un foro de discusión para usuarios de SAS

Quien no esté interesado en la literatura que viene después, puede acudir directamente a él. Encontrará subforos que discuten distintos aspectos y productos de SAS, podrá enviar preguntas, hacer gratis el trabajo que debería corresponder al soporte técnico de SAS si las responde, aprender cosas navegando, etc. Claro que uno puede también obtener/aportar ayuda en StackOverflow o en la archifamosa lista de correo SAS-L. De un tiempo a esta parte, observo que SAS se está volviendo una compañía más abierta a los aires del siglo XXI que la que conocí. Ha pasado de ser, primero, una compañía sumamente hermética, a tratar de crear lazos firmes con el ecosistema —así nos llamaban en tiempos sin que llegase nunca a saber si se trataba de una velada y subrepticia manera de llamarnos animalicos— de desarrolladores de SAS externos a la compañía. Y parece, en una tercera fase, que trata de crear una comunidad de usuarios al uso y explorar opciones que ofrecen las nuevas tecnologías tales como la creación de un portal para los usuarios de sus productos o el patrocinio de un canal específico en Twitter. ...

2 de octubre de 2010 · Carlos J. Gil Bellosta

Liberado KNIME 2.2.2

Ha sido liberada la versión 2.2.2 de KNIME. De esta plataforma de minería de datos hablé hace un año en las I Jornadas de R en Murcia (puede verse aquí el vídeo de la conferencia). Me interesó mucho desde un principio porque fue de las pioneras en ofrecer una integración con R y porque permitía desarrollar de una manera sencilla módulos adicionales. Es de esperar que R, KNIME, Rapidminer (del que también he hablado recientemente) y otras iniciativas emergentes se conviertan en una realidad cotidiana en el mundo de la empresa.

30 de septiembre de 2010 · Carlos J. Gil Bellosta

Proyectos de R en el Google Summer of Code 2010 (II)

Hace ya unos meses hablé de cómo había unos cuantos proyectos relacionados con R en el Google Summer of Code 2010. Recientemente se ha publicado un pequeño resumen de los logros alcanzados: De las quince propuestas originales, arrancaron cinco. De las cinco, cuatro llegaron a buen término. Lamentablemente, el —tal vez— más interesante de ellos, la implementación de un interfaz de R análogo a DBI para bases de datos no relacionales (NoSQL), acabó en nada. Me consta que este blog lo lee mucha gente relacionada con la universidad. ¿Será que el año que viene tendremos alguna propuesta de España, Colombia, Argentina…?

29 de septiembre de 2010 · Carlos J. Gil Bellosta

Huelga el título hoy

dat <- read.table("http://www.datanalytics.com/uploads/jornadas_huelga.csv", header = T) huelgas <- as.numeric( dat ) huelgas <- ts( huelgas, start = 1990, frequency = 12 ) plot( huelgas / 1000, xlab = "mes", ylab="", main = "Jornadas de huelga por mes en España (en miles)" ) La fuente, el INE.

29 de septiembre de 2010 · Carlos J. Gil Bellosta

¿Qué gráfico es mejor?

Los servidores del Parlamento Británico alojan (y ponen a disposición del público) una serie documentos agrupados por temas de los que hoy nos interesarán los relativos a política estadística y, dentro de ellos, un breve manual muy útil para elaborar gráficas que se atengan a los tres principios fundamentales de este esquivo arte: Veracidad: la gráfica debe reflejar verazmente los datos subyacentes Economía: la gráfica debe mostrar únicamente aquellos elementos necesarios para comprenderla Claridad: los elementos gráficos y textuales de la gráfica deben ser lo más claros posible para facilitar su comprensión por parte del lector. Ahí va un ejemplo de cómo puede este documento ayudar a mejorar las gráficas de quienes lo lean con el debido detenimiento. La de la izquierda es el tipo de gráfica a la que nos tienen acostumbrados los consultores bisoños; la de la derecha es la versión que propone el autor del documento. ...

27 de septiembre de 2010 · Carlos J. Gil Bellosta

Rutinas de C en R

[Nota: esta entrada está totalmente desactualizada y la mantengo en blog por una mezcla de sentimentalismo y fidelidad a la “memoria histórica”; el interesado en cómo interconectar R y C (o C++) hoy hará bien en buscar en otra parte.] Esta entrada que ahora hago es un pequeño tutorial que publiqué en mi primera página de internet a principios de siglo, cuando todavía usaba Windows regularmente. Es posible que gran parte de lo que en ella cuente esté ya mandado a recoger. No obstante, tampoco hace tanto, eché mano de lo que en ella había dejado escrito para ver cómo migrar a Windows algo que había hecho en Linux y… todavía funcionó. ...

26 de septiembre de 2010 · Carlos J. Gil Bellosta

Tecnologías de la información 2020

Me consta que algunos de mis lectores piensan en reorientar sus carreras. Éstos se autoclasifican en dos grandes grupos: Los candidatos a “dinosaurios” —según la terminología de Raúl, mi vecino de blog— que aspiran a autoperpetuarse en una sinecura y que encuentran esta entrada de mi blog grandemente inspiradora. Los que pueden encontrar este artículo de provecho. O, más bien, parte de él, la parte que, por motivar la lectura, traduzco a continuación. Para el 2020, la cantidad de datos generados anualmente alcanzará los 35 zettabytes (35 millones de petabytes) […], suficiente como para llenar dos pilas de DVDs que lleguen hasta la luna. ...

25 de septiembre de 2010 · Carlos J. Gil Bellosta

Un grupo de usuarios de R en España... ¿cuándo?

Hace poco recibí noticia de la creación de un grupo de usuarios de R en Brisbane, que no deja de ser una ciudad chiquita en un país poblacionalmente chiquito. ¡Y es ya el cuarto en Australia! Miro también el siguiente gráfico y me da algo de grima: ¡No hay ni unsolo cerca de Madrid (que es la ubicación que a mí y ahora más me compete)! Así que si alguno de mis lectores está interesado en el asunto, podemos ir urdiendo cómo hacer para colocarle un pinchico rojo a ese mapa justo en Sol. ...

24 de septiembre de 2010 · Carlos J. Gil Bellosta