Estadística

Graficaca a tutiplén

Al autor le preocupa de viejo el problema de la representación gráfica de datos. Piensa que tiene más de arte que de ciencia. Tal vez lo dice porque no se le da bien: confunde tonos y colores y desgarbado es el adjetivo que mejor describe sus trazos.

Y como casi todo diletante maltratado de las musas, ejerce de crítico. Y voto a Dios que su crítica es acerba. Le irritan todos los gráficos de tarta (menos éste), desea toda clase de malaventura al cretino que lleva lo de Excel en Expansión y vive prisionero de otras manías semejantes.

De la matriz a de covarianzas a la de correlaciones con Excel

Me preguntan cómo construir la matriz de correlaciones a partir de la de covarianzas con Excel. Mis lectores más versados en R conocerán la existencia de la función cov2cor (cuyo código fuente merece ser examinado).

Sin embargo, ¿cómo hacerlo con Excel? No es tan complicado, aunque infinitamente más prolijo: en la posición (i,j) de la matriz de correlaciones hay que asignar:

  • el valor (i,j) de la correspondiente matriz de covarianzas
  • dividido por la raíz cuadrada del producto de los valores (i,i) y (j,j) de la matriz de covarianzas.

Tan fácil como parece, implementarlo en Excel es poco menos que una tortura. Partiendo de una matriz de covarianzas A1:C3,

Nuestro mandato: ordenar y simplificar

Todo el mundo entiende que los médicos, sólo por serlo, están sujetos a un mandato específico: luchar contra la enfermedad. Puede que otros gremios (como los maestros o los jueces) tengan otros tan escuetos como significativos.

Yo, durante un tiempo, me pregunté cuál sería el de los matemáticos, los estadísticos, los que nos dedicamos al análisis de datos. Y creí dar con una fórmula que hice mía: ordenar y simplificar la información.

Siete consejos para expertos en análisis de datos

En mis deambulaciones por internet topé con una página interesante que bien merece ser comentada en este blog. Enumera siete técnicas (o secretos en su formulación primigenia) que habrían de hacer suyas los expertos en análisis de datos. Son:

Usa una herramienta del tamaño adecuado

SAS u Oracle no deberían considerarse las herramientas por defecto. Para procesar y depurar ficheros de texto de menos de mil líneas bastan herramientas como R, Google Refine, vi, Excel/OpenCalc,…

La Wikipedia te necesita

Hoy, procrastinando, me he dado un paseo por la Wikipedia en español. Y me he deprimido viendo el lamentable estado en que se encuentran la mayor parte de las páginas de las categorías a las que concierne esta bitácora como, por ejemplo, las de

Quiero invitar a los lectores de este blog (a los que, por serlo, se les presupone un mínimo de interés y formación) a que participen en ese proyecto común que es la Wikipedia (y, en particular, la Wikipedia en español) para no tener que volver a sonrojarnos al comparar nuestras páginas con las correspondientes de otros idiomas.

Una solución al problema de la separación perfecta con regresiones logísticas

Cuando el otro día planteé al mis lectores el problema de cómo representar de manera efectiva un conjunto de datos pequeños, no lo hice de manera enteramente ociosa. Eran datos reales de un cliente que tropezó con el llamado problema de la separación perfecta al intentar aplicar una regresión logística.

Veamos de nuevo los datos:

En la gráfica cada punto representa un individuo (posiblemente una persona). Los grupos los distinguen en dos clases (posiblemente, enfermos y sanos). La variable en el eje de la x mide el nivel de cierta proteína (supongo que en las células de algún tipo de tejido). Si se intenta realizar una regresión logística sobre este conjunto de datos sucede una catástrofe: el algoritmo diverge, aparecen mensajes de error en la pantalla, etc. ¡Es el problema de la separación perfecta!

Hoy me he enamorado en el metro

Hoy me he enamorado en el metro. Apenas comenzaba a leer mi articulillo cuando he tropezado con esta frase:

GPL treats data as an accessory to viewing a graph.

Y la siguiente era aún mejor:

GPL is based on the mathematical definition of the graph of a function and uses that definition to organize data linked to the graph.

Y más adelante:

[…] it is based on the assumption that statistical procedures serve graphics; graphics are not ancillary displays of statistical results, but are means of perceiving statistical relationships directly.

¡Feliz día de la estadística!

Hoy, 20 de octubre, se celebra el primer día de la estadística. Puede encontrarse más información en el suplemento económico de El País y en la página del INE. También se puede participar en las actividades programadas para el día.

Quien esté en Papúa Nueva Guinea, podrá cantar en loor de la estadística; quien esté en Londres podrá, además, participar en estas actividades;  los demás, siempre podemos entretenernos con las que nos sugiere Patrick Burns.

¡Felicidades!