Sas

Los dinosaurios y R: dos enlaces

R

Quiero compartir con mis lectores dos enlaces relacionados. Puede que a alguno le interese su sustancia misma. A mí no tanto. A mí me interesan en cuanto que ilustran la emergencia de R y el papel protagónico que está asumiendo en el universo de las cosas analíticas. Tan protagónico que hasta dos viejos dinosaurios pasan voluntariamente por su aro.

Tradicionalmente, para analizar grandes bases de datos empresariales, se realizaba en primer lugar una extracción masiva de datos. Luego se procesaban con herramientas específicas (SAS, por ejemplo). En muchas ocasiones los resultados eran volcados nuevamente en el sistema de partida.

Nuevos comentarios sobre RevoScaleR

R

El reto lanzado por Revolution Analytics a SAS está relacionado con el lanzamiento por parte de la primera empresa de un paquete, RevoScaleR, diseñado para permitir el análisis de conjuntos de datos grandes. La lectura más detallada de uno de los pocos documentos técnicos que circulan sobre el paquete me invita a compartir con mis lectores mis impresiones más allá de las primeras y más someras que realicé hace unos días.

La primera es que sigo sin entender claramente cómo es y cómo funciona el nuevo formato de almacenamiento de tablas, XDF. Al menos, no es público. Aunque es un tema de investigación candente (de lo que son prueba esto, esto, esto o el mismo paquete ff de R), no está claro si reaprovecha desarrollos previos o si es una implementación desde cero.

ggplot2 en su contexto

gplot2 es, sin duda, el paquete gráfico de moda en R. Hay quien lo ama, hay quien lo odia, pero cada vez son menos los que lo ignoran. Lo que igual no es tan sabido por los usuarios de R es el contexto en el que nació ggplot2, su relación con el motor gráfico de R y su relación con otros mecanismos de representación gráfica existentes en otros paquetes estadísticos.

¿Un torpedo bajo la línea de flotación de SAS?

R

Revolution Analytics ha disparado un torpedo apuntando bajo la línea de flotación de SAS. Se trata del SAS to R challenge, una muy inteligente campaña de publicidad por la que se compromete a reescribir en R gratuitamente código SAS de clientes potenciales si el primero es más eficaz que el segundo.

Más allá de lo que la campaña parece ser, se esconde lo que realmente es: la constatación de que el premio gordo en el mundo de análisis empresarial es la actual base instalada de SAS y de que Revolution va a por todas.

Graficaca a tutiplén

Al autor le preocupa de viejo el problema de la representación gráfica de datos. Piensa que tiene más de arte que de ciencia. Tal vez lo dice porque no se le da bien: confunde tonos y colores y desgarbado es el adjetivo que mejor describe sus trazos.

Y como casi todo diletante maltratado de las musas, ejerce de crítico. Y voto a Dios que su crítica es acerba. Le irritan todos los gráficos de tarta (menos éste), desea toda clase de malaventura al cretino que lleva lo de Excel en Expansión y vive prisionero de otras manías semejantes.

La función monotonic de PROC SQL de SAS

Previamente he hablado en este blog de las ventajas que ofrece PROC SQL en SAS sobre otros métodos más propiamente SAS de realizar ciertas manipulaciones de datos. Existen no obstante cierto tipo de manipulaciones que exigen pasos data: gran parte de las que hacen uso de la variable automática n.

No obstante, existe una función no documentada de SAS que permite implementar con SQL muchas operaciones de este tipo: monotonic.

Un foro de discusión para usuarios de SAS

Quien no esté interesado en la literatura que viene después, puede acudir directamente a él. Encontrará subforos que discuten distintos aspectos y productos de SAS, podrá enviar preguntas, hacer gratis el trabajo que debería corresponder al soporte técnico de SAS si las responde, aprender cosas navegando, etc.

Claro que uno puede también obtener/aportar ayuda en StackOverflow o en la archifamosa lista de correo SAS-L.

De un tiempo a esta parte, observo que SAS se está volviendo una compañía más abierta a los aires del siglo XXI que la que conocí. Ha pasado de ser, primero, una compañía sumamente hermética, a tratar de crear lazos firmes con el ecosistema —así nos llamaban en tiempos sin que llegase nunca a saber si se trataba de una velada y subrepticia manera de llamarnos animalicos— de desarrolladores de SAS externos a la compañía. Y parece, en una tercera fase, que trata de crear una comunidad de usuarios al uso y explorar opciones que ofrecen las nuevas tecnologías tales como la creación de un portal para los usuarios de sus productos o el patrocinio de un canal específico en Twitter.

Más sobre migraciones de SAS a WPS

El otro día escribí sobre WPS, un clon de SAS con unos costes de licencia sustancialmente menores.

KDNuggets ha publicado los resultados de una encuesta entre usuarios actuales y potenciales de SAS en la que se les preguntaba por su disposición a migrar a dicha plataforma.

Habedlos:

¿Cuál será la anomalía de la empresa española que no tengo noticia de ningún ERE a SAS? ¡Con la que está cayendo!

Nota: he modificado la página de Datanalytics y ahora, en la sección de servicios, dentro del apartado de consultoría SAS, detallo específicamente la migración a WPS como uno de ellos. ¡A ver si pronto suena el teléfono!

La función ifelse "a la SAS"

R

Una función muy útil de R es ifelse:

val <- 0
var <- ifelse( val == 1, "uno", "cero" )
print( var )

Un programador en SAS haría algo así como

%macro test(val);
    %if &val=1 %then %let var=one;
    %else %let var=zero;
    %put &var;
%mend;

%test(0);

SAS, sin embargo, recomienda hacerlo así:

%let val=0;
%let var=%sysfunc(ifc(&val=1,one,zero));
%put &var;

Una línea, sí, pero una línea muy críptica. ¡Aunque para gustos están los colores!

¿Cuánto cuesta una licencia de SAS?

Nada si tienes los contactos necesarios o te manejas por la parte turbia de internet. Y no tienes inconveniente en mantenerte del lado equivocado de la ley.

O unos 120 dólares si te conformas con una licencia restrictiva de SAS adquiriendo llamada SAS Learning Edition, que puede descargarse desde los servidores de SAS o adquirir en lugares tipo Amazon. Claro, si tus conjuntos de datos no tienen más de 1.500 filas (a fecha de hoy).