Estadística

Clustering (I): una pesadilla que fue real

Comienzo hoy una serie de entradas en seis entregas sobre una muy utilizada técnica de análisis de datos de la que soy un profundo detractor. Reconozco que uno de los motivos, aunque menores, de esta postura estriba en que carece de un nombre castizo y reconocido en español. Aunque por ahí gusta agrupación o agrupamiento, yo siempre he preferido arracimamiento: aparte de su valor visual, descarga el término grupo, manifiestamente sobreutilizado en muchos ámbitos.

Miscelánea de citas

Creo que tengo que pedirle excusas a Sam Savage por utilizar citas recopiladas por él para esta entrada mía de hoy. Me atrevo sólo porque espero que contribuya a difundir el conocimiento de su libro. Son:

Todos los modelos son erróneos, pero algunos son útiles.

—George Box, estadístico

Mentir un poco está permitido, pero jamás engañar.

—Paul Halmos, matemático

Un modelo exitoso te cuenta cosas que no le habías pedido que te contase.

Google Refine para analizar, estudiar y limpiar los datos

En esta entrada de hoy, hija de la pereza, reproduzco un vídeo que el lector puede encontrar igualmente en Medialab Prado. Es una presentación de Javier de la Torre, de Vizzuality, una compañía que trabaja en un campo del que nos hemos venido ocupando en estas páginas: la visualización de la información.

La presentación tuvo lugar el 15 de febrero de 2011 dentro del evento Barcamp: periodismo de datos. Trata sobre Google Refine.

Estadística "como Dios manda"

No sé si sería ésa la traducción más afortunada de straight statistics. Probablemente no. Pero tal vez recoge la idea. Y tampoco tengo esta noche tiempo ni cabeza para distingos y connotaciones.

Pero supongo que interesará a mis lectores conocer…

… una campaña promovida por periodistas y estadísticos para contribuir a mejorar la comprensión y el uso de la estadística por el gobierno, los políticos, las empresas, los anunciantes y los medios de comunicación. Denunciando las malas prácticas y premiando las buenas, esperamos contribuir a restaurar la confianza pública en la estadística.

Sobre el libro "The flaw of averages"

Leí hace un tiempo The flaw of averages, un libro poco convencional que recomiendo a mis lectores. Su objetivo último es encomiable: conseguir que personas sin mayor preparación matemática o estadística pero obligadas a tomar decisiones frente a la incertidumbre apliquen el sentido común y entiendan claramente unos principios mínimos.

Para lograrlo, asume una postura tal vez anti-intelectualista, tal vez herética. Piensa el autor —¿con motivo?— que, a ciertas personas, conceptos tales como varianza, media, teorema central del límite o función de densidad les dificultan, más que facilitan, la comprensión de lo que la incertidumbre realmente es y de cómo puede afectarlos. ¡Cuánta gente se conforma con conocer la media (p.e., de una estimación)!

NComVa y visualización de datos públicos

A la lista de herramientas de visualización y de análisis visual de datos públicos de las que ya hemos hablado en alguna ocasión, tales como Gapminder o Many Eyes, añado hoy unas de cuya existencia he venido a enterarme recientemente: las desarrolladas por la empresa sueca NComVa.

La empresa ha desarrollado para algunos de sus clientes portales tales como el del Banco Mundial, The Economist o el del Istat (INE italiano).

Los más interesados de mis lectores podrán echarle un vistazo al manual de usuario de la aplicación. Y los que estén todavía más interesados, dar guerra para que INEs y otros organismos públicos españoles —o donde quiera que residan— se pongan a la altura de los tiempos.

Explica, el portal divulgativo del INE

Me acaban de hacer llegar la noticia, via Twitter, de la existencia de Explica, el portal divulgativo del INE. Según sus propias palabras,

[d]esarrollamos este sitio web con el objetivo de incrementar la cultura estadística en la sociedad y favorecer así el buen uso de la información estadística. Aquí podrás encontrar un conjunto de productos de carácter divulgativo que permiten conocer los principales conceptos en que se basa la elaboración de la información estadística, el contexto en que se desenvuelve la estadística oficial y algunas curiosidades y aplicaciones.

Micromuertes

En 2008 (último año publicado), en España, según el INE, 16.000 personas perfectamente sanas se levantaron una mañana como si tal y por la noche estaban en el tanatorio metidas en una caja de pino rodeadas de sollozantes deudos.

Dividamos 16.000 por 365. Obtenemos 44. Como en España la población anda en torno de los 45 millones de personas, eso significa que cada día, uno de cada millón palmó inopinadamente. En el 2008, cada español, cada mañana tiró una moneda al aire 20 veces y quien obtuvo 20 cruces no volvió a ver el amanecer (supongo que es obvio que $2^{20} \approx 1.000.000$, ¿verdad?).

Graficaca en el FT

La gente que escribe en el Financial Times y mucha de la que lo lee suele vestir de traje. Son gente que sabe de lo que habla y están versados en muchos temas no triviales. Podrían ir en chanclas, pantalones cortos y camisetas viejas sin que eso afectase a su conocimiento y entendimiento de las cosas. Si fuese el caso, con cuatro frases que intercambiásemos con ellos nos daríamos cuenta de que la impresión que tal vez no causasen no se corresponde con su erudita esencia. Pero el hecho es que gastan corbata.

Dos perspectivas sobre el problema de los valores no informados

Me llegó el otro día información acerca de un curso sobre métodos para afrontar el problema planteado por los valores no informados (missing observations) que su autor agrupaba bajo etiquetas bastante simpáticas: el bueno, el malo y el impensable. Tal vez faltaba el feo, tal vez porque lo son todos ellos, igual que el bendito problema que suponen. Añadía, sin mayores abundamientos, que

  • explicaría cómo la solución común es en general la peor;
  • mostraría por qué cierta solución sencilla, relativamente común y con mala fama no es habitualmente tan mala, explicando, además, cuáles son las situaciones en las que funciona y no funciona e
  • indicaría dos soluciones que proporcionan resultados insesgados, una de las cuales es sencilla de implementar pero sólo funciona en ciertas circunstancias y la otra, aunque más complicada, funciona siempre.

Es un planteamiento un tanto comercial y no exento de gancho. Sin embargo, para el interesado en estos temas, traigo a colación dos artículos que ofrecen dos perspectivas algo distintas sobre este problema. El primero es una panorámica de procedimientos y herramientas existentes para encarar el problema de los valores no informados (en el contexto del análisis de la regresión, pero fácilmente extrapolables a otros similares), _Much Ado About Nothing: A Comparison of Missing Data Methods and Software to Fit Incomplete Data Regression Models _. El segundo es un informe de la Agencia Europea del Medicamento, Guideline on Missing Data in Confirmatory Clinical Trials, que sostiene una postura razonablemente paranoica al respecto (resumidamente: en caso de duda, siempre la solución más conservadora).