Excel

IBM sobre Excel como herramienta estadística

Hemos tratado el tema previamente en entradas como esta o esta. Pero es ahora IBM el que abunda en el tema mediante la publicación de un documento, The Risks of Using Spreadsheets for Statistical Analysis, cuyo nombre lo dice, poco más o menos, todo.

Cierto que el documento tiene como objetivo promover el uso de SPSS como alternativa y de ello se ocupa largamente su segunda mitad. Por eso es la primera la más relevante para mis lectores.

R y Excel: una alternativa

R

Los amantes de Excel están de enhorabuena. Ahora tienen una alternativa a RExcel, una extensión de Excel que le permite interactuar con R: XLConnect, un paquete multiplataforma de R que permite:

  • Trabajar con ficheros de Excel 97 (.xls) y OOXML (.xlsx)
  • Crear y eliminar hojas dentro de documentos
  • Leer y escribir rangos de valores (ranges)
  • Leer y escribir hojas de cálculo
  • Añadir gráficos
  • Asociar estilos a celdas
  • Definir el tamaño de las filas y columnas
  • Etc.

Está basado en Apache POI, una colección de librerías de Java que permiten manipular ficheros en los formatos más o menos propietarios de Microsoft. Así no es siquiera necesario tener Excel instalado. ¡Ni siquiera trabajar en Windows!

¿Tartas? No gracias

Voy a dejar aquí escrito mi argumento. Para que conste. Para tener que repetirlo cada vez que un exceladicto osa objetar. Por pereza. Para no tener sino que dar el enlace y pasar a otra cosa. Porque vamos para la primavera y es mejor dedicar el tiempo a cosas mejores que a dar vueltas sobre el mismo asunto.

El uso de tartas para visualizar fracciones está sancionado (acepción segunda) por la escuela básica: ¿quién no las vio representadas en una pizarra cuando oyó por primera vez en su vida mencionarlas palabras tres octavosnumerador y denominador? El que la formación matemática de muchos no llegase mucho más lejos unido a su prominente presencia en el endiosado Excel ha perpetuado su uso en los negocios y publicaciones para el gran público.

Una frase afortunada que merece ser enmarcada

Si bien en mi entrada de hace un par de días critiqué aspectos manifiestamente perfectibles de un articulillo que he leído estos días, hay en él una frase estupenda. Una frase que merece ser emarcada. Una frase de la que, por evitar que se me traspapele y para solaz de mis lectores, voy a dejar aquí constancia. Es:

Knusel (2005) investigated tail probabilities of distributions using Excel 2003 and found that previously inaccurate algorithms in Excel have been replaced by new inaccurate algorithms.

Graficaca a tutiplén

Al autor le preocupa de viejo el problema de la representación gráfica de datos. Piensa que tiene más de arte que de ciencia. Tal vez lo dice porque no se le da bien: confunde tonos y colores y desgarbado es el adjetivo que mejor describe sus trazos.

Y como casi todo diletante maltratado de las musas, ejerce de crítico. Y voto a Dios que su crítica es acerba. Le irritan todos los gráficos de tarta (menos éste), desea toda clase de malaventura al cretino que lleva lo de Excel en Expansión y vive prisionero de otras manías semejantes.

De la matriz a de covarianzas a la de correlaciones con Excel

Me preguntan cómo construir la matriz de correlaciones a partir de la de covarianzas con Excel. Mis lectores más versados en R conocerán la existencia de la función cov2cor (cuyo código fuente merece ser examinado).

Sin embargo, ¿cómo hacerlo con Excel? No es tan complicado, aunque infinitamente más prolijo: en la posición (i,j) de la matriz de correlaciones hay que asignar:

  • el valor (i,j) de la correspondiente matriz de covarianzas
  • dividido por la raíz cuadrada del producto de los valores (i,i) y (j,j) de la matriz de covarianzas.

Tan fácil como parece, implementarlo en Excel es poco menos que una tortura. Partiendo de una matriz de covarianzas A1:C3,

¿En qué se parecen Oracle y Teradata a Excel y Word?

Y, para el caso, Postgres y OpenOffice.

Pues en que quienes los diseñan piensan que los usuarios finales son, somos, abuelitas. Y por tanto, toman decisiones por nosotros (usar mayúsculas donde no se debe, cruzar tablas como les da la gana, empeñarse en que incoar se escribe con hache intercalada, etc.). En particular, mi queja de hoy se refiere a lo estúpidos que pueden llegar a ser los presuntos optimizadores de consultas en bases de datos y en un pequeño —aunque universal— método para doblegarlos a nuestra voluntad soberana.

Excel y estadística

Un buen amigo me comentó que para ver crecer el número de visitas a su blog hablaba de Excel. Como todavía no he tenido ninguna, con su venia, tomaré prestada la idea. Por otra parte, siendo éste un blog dedicado a la estadística, la minería de datos y asuntos concomitantes, enumeraré motivos por los que, en dichos ámbitos, se desaconseja su uso.

Los enlaces son ajenos, en inglés, y, algunos, algo viejos (hacen referencias a versiones antiguas de Excel). Van ahí: