Sas

Gráficos de embudo para controlar la varianza en muestras pequeñas

Publiqué hace un tiempo una entrada en esta bitácora sobre el problema que representa la desigualdad de los tamaños muestrales a la hora de comprender cierto tipo de datos, como por ejemplo, los que trata de representar el gráfico

que muestra la incidencia del cáncer de riñón en distintas zonas de en EE.UU. Como indiqué entonces, los valores extremos se encuentran en zonas menos pobladas: cuanto menor es la población, más probables son las proporciones inhabituales.

R en la enseñanza: unos comentarios a los comentarios

Iba a responder a los comentarios de mi entrada sobre las Jornadas de R y, muy en particular a los de Fernando Fernández, uno de los más fieles lectores de esta bitácora, y me he extendido tanto que he acabado convirtiéndola en una nueva. Pido excusas por haber tal vez abusado de mis prerrogativas para auparme de esta manera.

Tanto a él como a otros les chirrió que escribiese comenzamos una nueva época que en el plazo de tres o cuatro años nos va a conducir, con casi total seguridad, a un escenario en el que […] R se use de manera casi exclusiva en la enseñanza de la estadística en los niveles universitarios.

Dont be loopy! (III: jackknife y paralelismo)

R

Esta es la tercera entrega de una serie de artículos en los que comparo SAS y R a la hora de realizar diversos tipos de simulaciones basados en Don’t Be Loopy: Re-Sampling and Simulation the SAS® Way.

Esta vez toca compararlos a la hora de aplicar el método del jackknife.

Primero, el código SAS que recomienda el autor del artículo, que calcula la curtosis de un conjunto de datos trivial (una muestra de 10k valores que siguen una distribución uniforme):

Don’t be loopy! (II)

R

Continúo en esta la primera de las entradas que hice sobre el artículo Don’t Be Loopy: Re-Sampling and Simulation the SAS® Way.

Trata sobre lo siguiente:

  1. Construir un cojunto de datos simples (dos vectores, x e y).
  2. Hacer una regresión de y sobre x y capturar los residuos.
  3. Crear 1000 vectores y' distintos añadiendo a $latex \hat{y}$ (la predicción de y) en el modelo anterior una reordenación de los residuos.
  4. Crear los correspondientes 1000 modelos haciendo la regresión de cada $latex \hat{y}$ sobre x.
  5. Obtener el histograma del coeficiente de la regresión.

Es un caso de _bootstrap _en el que no se muestrean directamente los valores iniciales sino los residuos del modelo.

Rumores: ¿SAS en venta?

Corre el rumor de una posible venta de SAS. Pueden ser un simple rumor pero se non è vero, è ben trovato: el máximo responsable y accionista mayoritario de SAS, Jim Goodnight, tiene ya 68 años y la empresa está sufriendo el acoso de la competencia en muchos frentes.

SAS quiso pasar de ser una compañía que especializada en herramientas de estadística a otra que proporcionase un entorno completo de herramientas del tipo de las denominadas de business intelligence. Y en ese esfuerzo topó con los grandes. Y con los (cada vez menos) pequeños, como R, en su nicho originario. De ahí que, según datos de la consultora Gartner, sea el único de los grandes proveedores de este tipo de soluciones en perder cuota de mercado:

Don't be loopy!

Don’t be loopy! es el título de una presentación realizada en el SAS Global Forum de 2007. Tiene que ver con el motivo que me hizo en mi día abandonar SAS y buscar —entonces aún no lo conocía— el cobijo de R: sus limitaciones para todo lo que tiene que ver con simulaciones, remuestreos, jackknifes, _bootstraps _y similares.

El artículo muestra lo que debería ser el estado del arte para realizar este tipo de programas con SAS. En el primero de los problemas que estudia, que denomina bootstrap simple, muestrea 1.000 veces un conjunto de datos de 50.000 observaciones y calcula el valor de la curtosis para cada una de ellas. Finalmente, proporciona un intervalo de confianza para dicho valor.

Los siete pecados capitales de la minería de datos

Por ser viernes, traigo a estas páginas un vídeo tan pedagógico como ameno. Es la conferencia de Dick De Veaux dentro la M2010 Data Mining Conference auspiciada por SAS.

El autor repasa los siete pecados capitales de la minería de datos, a saber

  1. No realizar las preguntas adecuadas
  2. No entender el problema correctamente
  3. No prestar suficiente atención a la preparación de los datos
  4. Ignorar lo que no está ahí
  5. Enamorarse de los modelos
  6. Trabajar en solitario
  7. Usar datos malos

Frente a ellas, propone las siguientes virtudes:

SAS 9.3, disponible

Acaba de llegarme la noticia de que la versión 9.3 de SAS (sí, el producto de esa empresa que no quiere saber nada de las III Jornadas de Usuarios de R a pesar de que las palabras de su director general en España nos hicieran creer a algunos lo contrario) que, como de costumbre, es lo mejor de lo mejor. Entre los cambios grandes y pequeños que aporta están:

  • No es necesario pasar de de SAS 9.1.3 a SAS 9.2 para instalar la versión 9.3
  • Para producir gráficos con ODS no es necesaria la licencia de SAS/GRAPH
  • Los procedimientos gráficos SGPANEL, SGPLOT, SGRENDER y SGSCATTER ha pasado de SAS/GRAPH a SAS Base.
  • El nuevo procedimiento FMM de SAS/STAT permite ajustar modelos de mezclas finitas
  • Se pueden leer tablas de JMP en SAS directamente.

Y algunas más que podrán consultar los interesados en la página de SAS 9.3.

SAS, ¿el futuro? Una perspectiva demográfica

Recientemente tuvo lugar la conferencia del nosequé de SAS en algún lugar de EE.UU. Alguien decidió rodar el siguiente vídeo:

En él aparecen algunos de los participantes en las conferencias realizando comentarios simpáticos. Pero conforme iba viendo desfilar rostros, no dejaba de pensar en que existía un patrón en la muestra.

Chuletario de estadística con SAS

Los pocos usuarios de SAS que lo utilizan para hacer propiamente estadística con él cuentan con un chuletario muy útil que relaciona temas de estadística con funciones, código y documentación relativa al asunto (dentro del universo SAS, por supuesto). Por ejemplo, para el llamado Bivariate Tobit model remite al procedimiento SAS/ETS PROC QLIM.

¿Conocerá alguno de mis lectores un recurso similar para R? Más aún, ¿se animaría alguno a emprenderlo?