IBM compró Netezza: una taxonomía y algunos comentarios

El primero tiene que ver con coches. En el ascensor, en las conversaciones que oigo en el ascensor, que es donde pulso los intereses de mis cotidianos coadláteres, soy mudo testigo de multitud de conversaciones. Las más tratan de coches. Es increíble cómo la gente está al día de marcas, modelos, motores y potencias. Aunque luego les preguntas por lo de su oficio y te das cuenta de que, sorprendentemente, no saben por dónde les pega el aire. Así, nuestro teórico máximo sabedor sobre la base de datos con la que trabajamos ni siquiera estaba al corriente de que existía una cosa llamada Postgres. (Le tuve que deletrear el nombre, lo apuntó en un papel y me dijo que lo buscaría en internet; cualquier día le pregunto hasta dónde lo ha llevado su afán de saber). ...

10 de octubre de 2010 · Carlos J. Gil Bellosta

¿Es realmente posible la anonimización?

Pues depende a quién se lo pregunte uno. Por ejemplo, el 56% de los encuestados por KDnuggets dijeron que sí. En cambio, uno de los lectores de este blog aventuró lo contrario. Es curioso que este debate pudo haberse abierto mucho tiempo atrás —p.e., son públicos los microdatos de la EPA y de muchas otras encuestas en España— pero que, de no habérseme pasado por alto,solo ha despegado con particular virulencia a raíz de la popularización de estas competiciones de minería de datos de las que he hablado en alguna ocasión. ...

9 de octubre de 2010 · Carlos J. Gil Bellosta

Matlab es más rápido que R... ¿y?

No sé si alguna vez en la vida he visto una copia legal de Matlab. Creo que no. Ni forzando la memoria consigo recordar haber conocido a alguien que haya pagado los 2000 euros que cuesta una licencia comercial en España. Eso sí, he conocido a mucha gente a la que le gusta mucho. Y que habla maravillas de él, etc. En algún sitio lo habrán probado, presumo. Los aficionados a Matlab lo son también a comentar lo rápido que es. He desperdiciado largas horas en aburridoras conversaciones acerca de lo veloz que es Matlab haciendo nosequé operaciones (que no realizo ni directa ni indirectamente casi nunca). Y de paso, a comentar lo bien que se compara contra R (¿por chinchar?): alguna vez he tenido que asistir con desigual grado de indiferencia a inopinadas e improvisadas sesiones de programación en las que construir comparativas que demuestren cuánto más gallardamente invierte unas matrices Matlab que R. ...

6 de octubre de 2010 · Carlos J. Gil Bellosta

Cambios cosméticos en el blog

Acabo de realizar unos cuantos cambios, mayormente cosméticos, en mi blog. He añadido una lista de artículos recomendados al final de cada entrada, he eliminado el enlace a la entrada aleatoria, he incluido una lista de los últimos comentarios y, finalmente, he añadido propaganda contextual de Google. Lo he hecho por dos motivos. El primero es pecuniario, obviamente. No espero que me retire ni que me permita dejar de tener que madrugar. Nada de eso. Pero tal vez sí que me cubra un porcentajillo de los vicios. ...

3 de octubre de 2010 · Carlos J. Gil Bellosta

¿Por qué no una competición?

Después de haber hablado de competiciones de minería de datos, participado en una con mediano éxito y entrado en contacto con sus organizadores a raíz de eso, escribo para pulsar la opinión de mis lectores acerca de si es plausible que en un futuro empresas y organizaciones varias vean como una opción viable para resolver sus problemas analíticos el plantearlos como una competición abierta a quien quiera participar en ella. Marcin Wojnarski, del equipo que gestiona TunedIT, la plataforma sobre la que se organizó la competición a la que me refiero, me hizo llegar un documento en el que se enumeran las ventajas que supondrían para las empresas este tipo de competiciones sobre el método tradicional de afrontar las tareas analíticas. Obviamente, enumera las ventajas, que son muchas, manifiestas y muy de mi particular parecer. También, en comunicación personal (y por eso no los hago públicos), me ha participado los costes que tendría para una empresa organizar una competición a través de su plataforma. ...

3 de octubre de 2010 · Carlos J. Gil Bellosta

Un foro de discusión para usuarios de SAS

Quien no esté interesado en la literatura que viene después, puede acudir directamente a él. Encontrará subforos que discuten distintos aspectos y productos de SAS, podrá enviar preguntas, hacer gratis el trabajo que debería corresponder al soporte técnico de SAS si las responde, aprender cosas navegando, etc. Claro que uno puede también obtener/aportar ayuda en StackOverflow o en la archifamosa lista de correo SAS-L. De un tiempo a esta parte, observo que SAS se está volviendo una compañía más abierta a los aires del siglo XXI que la que conocí. Ha pasado de ser, primero, una compañía sumamente hermética, a tratar de crear lazos firmes con el ecosistema —así nos llamaban en tiempos sin que llegase nunca a saber si se trataba de una velada y subrepticia manera de llamarnos animalicos— de desarrolladores de SAS externos a la compañía. Y parece, en una tercera fase, que trata de crear una comunidad de usuarios al uso y explorar opciones que ofrecen las nuevas tecnologías tales como la creación de un portal para los usuarios de sus productos o el patrocinio de un canal específico en Twitter. ...

2 de octubre de 2010 · Carlos J. Gil Bellosta

Liberado KNIME 2.2.2

Ha sido liberada la versión 2.2.2 de KNIME. De esta plataforma de minería de datos hablé hace un año en las I Jornadas de R en Murcia (puede verse aquí el vídeo de la conferencia). Me interesó mucho desde un principio porque fue de las pioneras en ofrecer una integración con R y porque permitía desarrollar de una manera sencilla módulos adicionales. Es de esperar que R, KNIME, Rapidminer (del que también he hablado recientemente) y otras iniciativas emergentes se conviertan en una realidad cotidiana en el mundo de la empresa.

30 de septiembre de 2010 · Carlos J. Gil Bellosta

Proyectos de R en el Google Summer of Code 2010 (II)

Hace ya unos meses hablé de cómo había unos cuantos proyectos relacionados con R en el Google Summer of Code 2010. Recientemente se ha publicado un pequeño resumen de los logros alcanzados: De las quince propuestas originales, arrancaron cinco. De las cinco, cuatro llegaron a buen término. Lamentablemente, el —tal vez— más interesante de ellos, la implementación de un interfaz de R análogo a DBI para bases de datos no relacionales (NoSQL), acabó en nada. Me consta que este blog lo lee mucha gente relacionada con la universidad. ¿Será que el año que viene tendremos alguna propuesta de España, Colombia, Argentina…?

29 de septiembre de 2010 · Carlos J. Gil Bellosta

Huelga el título hoy

dat <- read.table("http://www.datanalytics.com/uploads/jornadas_huelga.csv", header = T) huelgas <- as.numeric( dat ) huelgas <- ts( huelgas, start = 1990, frequency = 12 ) plot( huelgas / 1000, xlab = "mes", ylab="", main = "Jornadas de huelga por mes en España (en miles)" ) La fuente, el INE.

29 de septiembre de 2010 · Carlos J. Gil Bellosta

¿Qué gráfico es mejor?

Los servidores del Parlamento Británico alojan (y ponen a disposición del público) una serie documentos agrupados por temas de los que hoy nos interesarán los relativos a política estadística y, dentro de ellos, un breve manual muy útil para elaborar gráficas que se atengan a los tres principios fundamentales de este esquivo arte: Veracidad: la gráfica debe reflejar verazmente los datos subyacentes Economía: la gráfica debe mostrar únicamente aquellos elementos necesarios para comprenderla Claridad: los elementos gráficos y textuales de la gráfica deben ser lo más claros posible para facilitar su comprensión por parte del lector. Ahí va un ejemplo de cómo puede este documento ayudar a mejorar las gráficas de quienes lo lean con el debido detenimiento. La de la izquierda es el tipo de gráfica a la que nos tienen acostumbrados los consultores bisoños; la de la derecha es la versión que propone el autor del documento. ...

27 de septiembre de 2010 · Carlos J. Gil Bellosta