El vídeo de la conferencia "alRededores" disponible en DailyMotion

Como nunca conseguí ver el vídeo de la conferencia que di en las I Jornadas de Usuarios de R en noviembre del 2009 directamente desde los servidores de la Universidad de Murcia, lo he subido a DailyMotion. Los 60 minutos de la conferencia están partidos en tres partes que pueden verse consecutivamente aquí. Nota: al final de cada parte aparece un enlace para continuar a la siguiente.

5 de septiembre de 2010 · Carlos J. Gil Bellosta

Paquetes estadísticos: una anécdota sin moraleja

Un banco que gana mucho dinero quiso gastarse un nada desdeñable pellizco de sus ingresos contratando a unos consultores muy resabidos de un país extranjero donde, es fama, todos saben mucho. El resultado fue una documentación ininteligible y un larguísimo programa en VB sin apenas comentarios que se demoraba horas en realizar una simulación trivial. El banco, cansado de quemar ciclos de CPU en vano, encargó a una consultora local la reimplementación del algoritmo en un afamado paquete estadístico. A falta de documentación, la reimplementación hubo de hacerse tratando de adivinar qué demonios hacía el código original. Prácticamente, fue un proceso de ingeniería inversa. ...

4 de septiembre de 2010 · Carlos J. Gil Bellosta

Muestreando bases de datos

Aunque el concepto de minería de datos esté casi indisolublemente asociado al de bases de datos enormes, en la práctica, el análisis y desarrollo de los modelos se realizan sobre muestras pequeñas. Esencialmente, para lo que nos ocupa, es pequeño un conjunto de datos que cabe en la RAM de un PC. Actualmente son habituales las máquinas con 1 GB. A modo de comparación, la base de datos de clientes de una de las mayores compañías españolas y en la que trabajé hace un tiempo venía a ocupar 5 GB. ...

2 de septiembre de 2010 · Carlos J. Gil Bellosta

El paquete multicore de R

Tengo acceso a una máquina que, aunque anda un poco corta de memoria, cuenta con ocho CPUs. Tenía unas simulaciones bastante pesadas que correr y quise aprovechar su naturaleza perfectamente paralelizable. Y, de paso, hacer con R lo mismo por lo que he visto a un consultor de SAS cobrar a razón de 3.000 dólares diarios. En el fondo, es una trivialidad. Supongamos que la función que implementa la simulación se llama foo. Habitualmente, haríamos ...

1 de septiembre de 2010 · Carlos J. Gil Bellosta

Anuncio de la integración de Rapidminer y R

RapidMiner es, posiblemente, la plataforma de minería de datos libre que mejor reputación goza. Hasta la publicación de la versión 5 le veía un pequeño problema: tenía una interfaz bastante poco intuitiva. Hasta hace pocos días le veía otro: no podía extenderse —al menos de una manera obvia— programando en Java o, preferiblemente, R. Sin embargo, el módulo de integración de R con Rapidminer ya está listo y su lanzamiento va a ser el plato fuerte de RCOMM 2010, la conferencia de usuarios de Rapidminer (oficialmente, RapidMiner Community Meeting And Conference). ...

31 de agosto de 2010 · Carlos J. Gil Bellosta

Si yo fuera...

Si yo fuera responsable de una empresa de consultoría de, digamos (por mencionar un número redondo), 7.000 empleados, propondría la siguiente iniciativa: Crear un blog público de asuntos relacionados con la actividad de la empresa. Invitar a los empleados a mandar posibles entradas (originales, etc.). Cada día, publicar la mejor de las entradas recibidas. Recompensar a su autor con alguna chuche: un día de vacaciones, 100 euros, etc. ¿Ventajas? Supongo que muchas. De hecho, IBM patrocina una iniciativa similar en la que se publican artículos muy interesantes. ...

29 de agosto de 2010 · Carlos J. Gil Bellosta

La función ifelse "a la SAS"

Una función muy útil de R es ifelse: val <- 0 var <- ifelse( val == 1, "uno", "cero" ) print( var ) Un programador en SAS haría algo así como %macro test(val); %if &val=1 %then %let var=one; %else %let var=zero; %put &var; %mend; %test(0); SAS, sin embargo, recomienda hacerlo así: %let val=0; %let var=%sysfunc(ifc(&val=1,one,zero)); %put &var; Una línea, sí, pero una línea muy críptica. ¡Aunque para gustos están los colores!

28 de agosto de 2010 · Carlos J. Gil Bellosta

¿Cuánto cuesta una licencia de SAS?

Nada si tienes los contactos necesarios o te manejas por la parte turbia de internet. Y no tienes inconveniente en mantenerte del lado equivocado de la ley. O unos 120 dólares si te conformas con una licencia restrictiva de SAS adquiriendo llamada SAS Learning Edition, que puede descargarse desde los servidores de SAS o adquirir en lugares tipo Amazon. Claro, si tus conjuntos de datos no tienen más de 1.500 filas (a fecha de hoy). ...

27 de agosto de 2010 · Carlos J. Gil Bellosta

Modelos lineales mixtos para la optimización de queries

Hoy aprovecho que pasan dos pájaros por el cielo para pegar un tiro que, seguro, es del interés de mis lectores: voy a utilizar un modelo lineal mixto para estudiar los factores que afectan al rendimiento de una familia de queries de SQL complejas. El objetivo final es contar con criterios empíricos para la optimización de ciertas queries (siento decir optimización de queries: me obliga a ello la voluntad de que los buscadores me indexen donde más búsquedas se vayan a realizar; por una vez, renegaré del talibán ortográfico que llevo dentro) e, indirectamente, ilustrar con datos distintos de los habituales esta técnica estadística. ...

26 de agosto de 2010 · Carlos J. Gil Bellosta

Cinco consejos que nunca leerá quien debe

Desde que dejé de ser uno de ellos, a esa gente que vive en un mundo en el que las cifras tienen un cero de mássolo me la tropiezo en los ascensores. Los oigo hablar de potencias de motores, de la piscina del chalé y de lo mal que está el servicio. Si de verdad tuviesen interés en aquello por lo que les pagan, seguro, leerían esta entrada y no se perderían ni una coma de lo que sigue a continuación. ...

24 de agosto de 2010 · Carlos J. Gil Bellosta