Estadística

Sobre el libro "The flaw of averages"

Leí hace un tiempo The flaw of averages, un libro poco convencional que recomiendo a mis lectores. Su objetivo último es encomiable: conseguir que personas sin mayor preparación matemática o estadística pero obligadas a tomar decisiones frente a la incertidumbre apliquen el sentido común y entiendan claramente unos principios mínimos.

Para lograrlo, asume una postura tal vez anti-intelectualista, tal vez herética. Piensa el autor —¿con motivo?— que, a ciertas personas, conceptos tales como varianza, media, teorema central del límite o función de densidad les dificultan, más que facilitan, la comprensión de lo que la incertidumbre realmente es y de cómo puede afectarlos. ¡Cuánta gente se conforma con conocer la media (p.e., de una estimación)!

NComVa y visualización de datos públicos

A la lista de herramientas de visualización y de análisis visual de datos públicos de las que ya hemos hablado en alguna ocasión, tales como Gapminder o Many Eyes, añado hoy unas de cuya existencia he venido a enterarme recientemente: las desarrolladas por la empresa sueca NComVa.

La empresa ha desarrollado para algunos de sus clientes portales tales como el del Banco Mundial, The Economist o el del Istat (INE italiano).

Los más interesados de mis lectores podrán echarle un vistazo al manual de usuario de la aplicación. Y los que estén todavía más interesados, dar guerra para que INEs y otros organismos públicos españoles —o donde quiera que residan— se pongan a la altura de los tiempos.

Explica, el portal divulgativo del INE

Me acaban de hacer llegar la noticia, via Twitter, de la existencia de Explica, el portal divulgativo del INE. Según sus propias palabras,

[d]esarrollamos este sitio web con el objetivo de incrementar la cultura estadística en la sociedad y favorecer así el buen uso de la información estadística. Aquí podrás encontrar un conjunto de productos de carácter divulgativo que permiten conocer los principales conceptos en que se basa la elaboración de la información estadística, el contexto en que se desenvuelve la estadística oficial y algunas curiosidades y aplicaciones.

Micromuertes

En 2008 (último año publicado), en España, según el INE, 16.000 personas perfectamente sanas se levantaron una mañana como si tal y por la noche estaban en el tanatorio metidas en una caja de pino rodeadas de sollozantes deudos.

Dividamos 16.000 por 365. Obtenemos 44. Como en España la población anda en torno de los 45 millones de personas, eso significa que cada día, uno de cada millón palmó inopinadamente. En el 2008, cada español, cada mañana tiró una moneda al aire 20 veces y quien obtuvo 20 cruces no volvió a ver el amanecer (supongo que es obvio que $latex 2^{20} \approx 1.000.000$, ¿verdad?).

Graficaca en el FT

La gente que escribe en el Financial Times y mucha de la que lo lee suele vestir de traje. Son gente que sabe de lo que habla y están versados en muchos temas no triviales. Podrían ir en chanclas, pantalones cortos y camisetas viejas sin que eso afectase a su conocimiento y entendimiento de las cosas. Si fuese el caso, con cuatro frases que intercambiásemos con ellos nos daríamos cuenta de que la impresión que tal vez no causasen no se corresponde con su erudita esencia. Pero el hecho es que gastan corbata.

Dos perspectivas sobre el problema de los valores no informados

Me llegó el otro día información acerca de un curso sobre métodos para afrontar el problema planteado por los valores no informados (missing observations) que su autor agrupaba bajo etiquetas bastante simpáticas: el bueno, el malo y el impensable. Tal vez faltaba el feo, tal vez porque lo son todos ellos, igual que el bendito problema que suponen. Añadía, sin mayores abundamientos, que

  • explicaría cómo la solución común es en general la peor;
  • mostraría por qué cierta solución sencilla, relativamente común y con mala fama no es habitualmente tan mala, explicando, además, cuáles son las situaciones en las que funciona y no funciona e
  • indicaría dos soluciones que proporcionan resultados insesgados, una de las cuales es sencilla de implementar pero sólo funciona en ciertas circunstancias y la otra, aunque más complicada, funciona siempre.

Es un planteamiento un tanto comercial y no exento de gancho. Sin embargo, para el interesado en estos temas, traigo a colación dos artículos que ofrecen dos perspectivas algo distintas sobre este problema. El primero es una panorámica de procedimientos y herramientas existentes para encarar el problema de los valores no informados (en el contexto del análisis de la regresión, pero fácilmente extrapolables a otros similares), _Much Ado About Nothing: A Comparison of Missing Data Methods and Software to Fit Incomplete Data Regression Models _. El segundo es un informe de la Agencia Europea del Medicamento, Guideline on Missing Data in Confirmatory Clinical Trials, que sostiene una postura razonablemente paranoica al respecto (resumidamente: en caso de duda, siempre la solución más conservadora).

El problema de la media, el problema con la media

Debiera comenzar asumiendo y reconociendo mis deficiencias pedagógicas a la hora de elegir y presentar el problema sobre la media de la semana pasada. Espero que quienes hicieron comentarios al respecto —y quienes los pensaron sin escribirlos— no reciban esta entrada con el “buuuuu” que tal vez merezco.

El problema de la media es más bien un problema con la media. No es en él tan interesante la solución —y nadie debería pensar que en estas páginas planteamos problemas rancios como aquéllos sobre cuadernos, lapiceros y pesetas con que entretuvimos alguna tarde de la infancia— como su discusión.

Problema de la semana sobre la media

Como esta semana se me están agotando las ideas antes que los días de blog, en lugar de discurrir una entrada, propongo un problema para que sean mis lectores quienes lo hagan por mí.

Que se imaginen dueños de un pozo petrolífero cuyos costes de explotación son de 75 dpb (dólares por barril). El precio del petróleo no es fijo: puede tomar aleatoriamente los valores 50, 100 o 150 dpb, aunque se sabe que todos son equiprobables.

Extensiones de la R2

Sin ir más lejos, cojamos el primer ejemplo que aparece en ?ls, es decir,

ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14)
trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69)
group <- gl(2,10,20, labels=c("Ctl","Trt"))
weight <- c(ctl, trt)
lm.D9 <- lm(weight ~ group)
summary( lm.D9 )

y hagamos

cor( weight, predict( lm.D9 ) )**2

¿Qué obtenemos? Precisamente la R2 del modelo lm.D9. Esta relación abre la puerta a varias extensiones de esta medida de la bondad de ajuste a contextos en los que las expresiones suma de cuadrados de… carecen de sentido.

Incertidumbre, juicios y sesgos

Recomiendo encarecidamente la lectura del artículo Judgment under Uncertainty: Heuristics and Biases de D. Kahneman y A. Tversky. En pocas palabras, trata sobre dos cosas:

  • los atajos mentales que utiliza el ser humano para asociar probabilidades subjetivas a eventos y, sobre todo,
  • los sesgos y errores a los que conducen dichos atajos.

A través de una serie de experimentos, los autores revelan cómo individuos —incluso con una sólida formación cuantitativa— yerran sistemáticamente al enfrentarse con determinado tipo de problemas.

Causalidad o asociación: indicios de la primera

Distinguir adecuadamente causalidad de asociación es un tema sobre el que se han vertido ríos de tinta. Parte de la formación de un estadístico consiste en reconfigurar su arquitectura neuronal de manera que sienta infinito recelo ante proclamas de causalidad de una manera tan instintiva como la del perro de Paulov.

Esta cautela es sin duda necesaria y ha liberado al mundo de infinidad de resultados espúreos. Sin embargo, ha incrementado notablemente los que podríamos llamar errores de tipo II.

¿Cuál es la esencia de la estadística?

¿Qué tienen que ver minería de datos y estadística? Podría opinar personalmente sobre el asunto, pero serviré en esta ocasión de pregonero de las ideas que Jerome H. Friedman dejó escritas al respecto. Aunque el artículo tiene ya sus casi quince años, las ideas que contiene están todavía en plena vigencia.

Comienza el artículo Friedman con un ejercicio irónico acerca de la fiebre del oro que generó (y sigue generando muchos años después) esa disciplina que se dio en llamar minería de datos. Así, se plantea hasta qué punto se trata más de una actividad comercial que propiamente académica; y al respecto comenta cómo, al igual que en casi todas las fiebres del oro que han existido la verdadera rentabilidad está en mining the miners. En plata, sacarles la ídem a los mineros; en particular, vendiéndoles herramientas taumatúrgicas a precios aúricos.

Chuletario de estadística con SAS

Los pocos usuarios de SAS que lo utilizan para hacer propiamente estadística con él cuentan con un chuletario muy útil que relaciona temas de estadística con funciones, código y documentación relativa al asunto (dentro del universo SAS, por supuesto). Por ejemplo, para el llamado Bivariate Tobit model remite al procedimiento SAS/ETS PROC QLIM.

¿Conocerá alguno de mis lectores un recurso similar para R? Más aún, ¿se animaría alguno a emprenderlo?