Estadística

¿Dónde obtengo mis datos? ¡Pregunta!

Se ha hablado mucho de la avalancha de la información, de la web semántica, del gobierno abierto, del acceso libre a los datos, de compartirlos, etc. Pero a la hora de la verdad, ¿dónde puedo obtener los datos que necesito aquí y ahora para un fin concreto?

La respuesta no es sencilla. Por supuesto, tienes los buscadores. Hay información que uno sabe que consta en el INE o tal vez en las páginas de un determinado ministerio u organismo público. Tal vez puedes llamar a ese amigo tuyo que tal vez lo sepa.

Estadística para periodistas y escritores

Hace tiempo, mucho ya, decidí que no me interesaba desarrollar una carrera dentro de la academia. Pesó en la decisión el hecho de que entre las cosas punteras, entre el estado del arte a cuyo progreso se dedican nuestras universidades y lo que de ellas absorbe la sociedad (léase: empresas, instituciones oficiales, la prensa, el vulgo) mediaba una extensa tierra de nadie en la que poder plantar mi alegórica tienda.

¿Casi todos los resultados científicos que se publican son falsos?

La falsabilidad es una exigencia de la ciencia que la distinguen, por ejemplo, de la seudociencia. Todo enunciado de valor científico tiene que ser potencialmente refutable. Los resultados científicos, de alguna manera, no son tanto ciertos como refutables y no refutados.

El trabajo de los científicos consiste en dar con enunciados refutables lo más difíciles posible de refutar. Piénsese en la ley de gravitación universal de Newton: sin ser cierta, estuvo en pie durante siglos.

¿Tartas? No gracias

Voy a dejar aquí escrito mi argumento. Para que conste. Para tener que repetirlo cada vez que un exceladicto osa objetar. Por pereza. Para no tener sino que dar el enlace y pasar a otra cosa. Porque vamos para la primavera y es mejor dedicar el tiempo a cosas mejores que a dar vueltas sobre el mismo asunto.

El uso de tartas para visualizar fracciones está sancionado (acepción segunda) por la escuela básica: ¿quién no las vio representadas en una pizarra cuando oyó por primera vez en su vida mencionarlas palabras tres octavosnumerador y denominador? El que la formación matemática de muchos no llegase mucho más lejos unido a su prominente presencia en el endiosado Excel ha perpetuado su uso en los negocios y publicaciones para el gran público.

Una frase afortunada que merece ser enmarcada

Si bien en mi entrada de hace un par de días critiqué aspectos manifiestamente perfectibles de un articulillo que he leído estos días, hay en él una frase estupenda. Una frase que merece ser emarcada. Una frase de la que, por evitar que se me traspapele y para solaz de mis lectores, voy a dejar aquí constancia. Es:

Knusel (2005) investigated tail probabilities of distributions using Excel 2003 and found that previously inaccurate algorithms in Excel have been replaced by new inaccurate algorithms.

Graficaca a tutiplén

Al autor le preocupa de viejo el problema de la representación gráfica de datos. Piensa que tiene más de arte que de ciencia. Tal vez lo dice porque no se le da bien: confunde tonos y colores y desgarbado es el adjetivo que mejor describe sus trazos.

Y como casi todo diletante maltratado de las musas, ejerce de crítico. Y voto a Dios que su crítica es acerba. Le irritan todos los gráficos de tarta (menos éste), desea toda clase de malaventura al cretino que lleva lo de Excel en Expansión y vive prisionero de otras manías semejantes.

De la matriz a de covarianzas a la de correlaciones con Excel

Me preguntan cómo construir la matriz de correlaciones a partir de la de covarianzas con Excel. Mis lectores más versados en R conocerán la existencia de la función cov2cor (cuyo código fuente merece ser examinado).

Sin embargo, ¿cómo hacerlo con Excel? No es tan complicado, aunque infinitamente más prolijo: en la posición (i,j) de la matriz de correlaciones hay que asignar:

  • el valor (i,j) de la correspondiente matriz de covarianzas
  • dividido por la raíz cuadrada del producto de los valores (i,i) y (j,j) de la matriz de covarianzas.

Tan fácil como parece, implementarlo en Excel es poco menos que una tortura. Partiendo de una matriz de covarianzas A1:C3,

Nuestro mandato: ordenar y simplificar

Todo el mundo entiende que los médicos, sólo por serlo, están sujetos a un mandato específico: luchar contra la enfermedad. Puede que otros gremios (como los maestros o los jueces) tengan otros tan escuetos como significativos.

Yo, durante un tiempo, me pregunté cuál sería el de los matemáticos, los estadísticos, los que nos dedicamos al análisis de datos. Y creí dar con una fórmula que hice mía: ordenar y simplificar la información.

Siete consejos para expertos en análisis de datos

En mis deambulaciones por internet topé con una página interesante que bien merece ser comentada en este blog. Enumera siete técnicas (o secretos en su formulación primigenia) que habrían de hacer suyas los expertos en análisis de datos. Son:

Usa una herramienta del tamaño adecuado

SAS u Oracle no deberían considerarse las herramientas por defecto. Para procesar y depurar ficheros de texto de menos de mil líneas bastan herramientas como R, Google Refine, vi, Excel/OpenCalc,…