Estadística

¿Cómo vota la gente?

La gente vota de muchas maneras. A bote pronto, uno diría que lo hace cada cuatro años con papeletas y en medio de parafernalia de listas cerradas, mítines y similares aditamentos.

Pero hay otros que opinan que hay mecanismos alternativos de voto. La gente puede votar en Twitter, por ejemplo. Y algunos conceden a esos votos una relativa potestad para adivinar o, incluso, influenciar fenómenos de importancia económica, política o social.

Quienes entablan batallas numéricas después de las manifestaciones, qué duda cabe que atribuyen efectos plebiscitarios a que la cola de la marcha llegase o no a Atocha cuando la cabecera entraba a Colón.

La ley de Benford en muestras pequeñas: algunas evidencias

Hoy he cogido medio millón de números correspondientes a cuantías de dinero, en diversas monedas y he mirado a ver si cumplían la Ley de Benford utilizando código de Gregorio Serrano (véase también esto). El resultado ha sido

donde se aprecia cómo, efectivamente, dichas cifras parecen adecuarse a la Ley de Benford. (Hay que hacer notar, sin embargo, que el test implementado por Gregorio, el de la chi-cuadrado, arroja un p-valor de 2.2e-16, que podría llevar a algunos a cuestionar si lo que ven sus ojos es cierto y a otros a divagar sobre la aplicabilidad de pruebas de este tipo a conjuntos de datos tan grandes).

El primer análisis clínico, ¿en la Biblia?

Ben Goldacre es un médico inglés algo friqui. No se conforma con lo que le cuentan los vademécum al uso. Y mucho menos, los visitadores médicos, es decir, los representantes comerciales de las compañías farmacéuticas. Le gusta navegar por la literatura científica y ver qué se ha publicado sobre los diversos tratamientos. E incluso, lo que no ha llegado a publicarse (ya sabéis, el sesgo de publicación).

Publicó en 2008 un libro muy recomendable, Bad Science (traducido al español), gracias al cual he venido a enterarme de cuál pudiera haber sido el primer análisis clínico de la historia:

¿Por qué 0.05?

¿Por qué usamos p=0.05 como umbral de significancia? ¿Cuáles son los motivos históricos detrás de dicha decisión? ¿Tiene ventajas? ¿Inconvenientes?

Quien quiera conocer en qué contexto dijo R.A. Fischer que

[…] for in fact no scientific worker has a fixed level of significance at which from year to year, and in all circumstances, he rejects hypotheses; he rather gives his mind to each particular case in the light of his evidence and his ideas. Further, the calculation is based solely on a hypothesis, which, in the light of the evidence, is often not believed to be true at all, so that the actual probability of erroneous decision, supposing such a phrase to have any meaning, may be much less than the frequency specifying the level of significance.

Los nueve artículos favoritos de Tibshirani

Rob Tibshirani ha seleccionado recientemente una lista de nueve artículos de estadística publicados desde 1970. Son estos:

  • Regression models and life tables (with discussion) (Cox 1972). Según Tibshirani, David Cox merece el Nobel de Medicina por él.
  • Generalized linear models (Nelder and Wedderburn 1972). Es la base del paquete glim de R.
  • Maximum Likelihood from Incomplete Data via the {EM} Algorithm (with discussion) (Dempster, Laird, and Rubin 1977).
  • Bootstrap methods: another look at the jackknife (Efron 1979).
  • Classification and regression trees (Breiman, Friedman, Olshen and Stone 1984).
  • How biased is the error rate of a prediction rule? (Efron 1986).
  • Sampling based approaches to calculating marginal densities (Gelfand and Smith 1990).
  • Controlling the false discovery rate: a practical and powerful approach to multiple testing (Benjamini and Hochberg 1995).
  • A decision-theoretic generalization of online learning and an application to boosting (Freund and Schapire 1995).

Sobre los límites de la minería de datos

Guardaba en la cartera un artículo que ya pronto cumple sus cinco años. Sirve de contrapunto a toda esa literatura que describe la minería de datos como una suerte de panacea, la cómoda senda hacia un futuro de armonía y color.

Se trata de una entrevista a Peter Fader sobre a lo que la minería de datos alcanza y no alcanza.

Los estadísticos se sienten relativamente cómodos ascendiendo de lo particular a lo general (por ejemplo, calculando una media). En contraposición, la promesa de la minería de datos consiste en la predicción del comportamiento de los individuos, de cada individuo, a partir de modelos construidos sobre repositorios de datos cada vez más extensos y perfiles más detallados de cada sujeto.

Las ocho peores técnicas analíticas

La noticia es vieja y posiblemente conocida de muchos. Además, procede de esta otra bitácora. Pero no está de más dejar constancia de ella aquí.

Estas ocho técnicas son:

  • La regresión lineal
  • Los árboles de decisión tradicionales (yo los uso mucho, sin embargo, como herramienta descriptiva)
  • El análisis discriminante lineal
  • Las k-medias para construir clústers (véase esto)
  • Las redes neuronales (por su difícil interpretación, inestabilidad y su tendencia al sobreajuste)
  • La estimación por máxima verosimilitud, particularmente cuando la dimensionalidad del problema es elevada
  • Naive Bayes (véase esto)

Capicúa

Capicúa es una de las trescientas cincuenta y pico palabras españolas que tienen su origen en el idioma catalán. Significa _cabeza _y cola. Y viene muy bien para etiquetar las dos entradas que, con esta, he realizado sobre las elecciones en Cataluña.

La que hice en su día, la cola, criticaba los métodos y ponía en cuestión los resultados de una encuesta electoral realizada por El Periódico (para más información, véase este enlace). Tal vez no sea casualidad que el software usado por los analistas en este caso sea SPSS.

No es país para "biplots"

No, parece que aún no estamos preparados para los biplots. En el curso Introduction to Infographics and Data Visualization de Alberto Cairo, nos pidieron sugierir mejoras y alternativas a este gráfico:

En el curso aparecieron sugerencias tales como esta,

esta, y otras similares que jugaban con los elementos gráficos habituales con más o menos arte, mejor o peor gusto en los colores, etc.

A mí se me ocurrió que los datos que aparecen en el gráfico original podía, con alguna salvedad y abusando del lenguaje, considerarse una especie de tabla de contingencia que incluía el número de personas que en cada país hacen uso de distintos tipos de servicios de internet. Y que entonces podría utilizar herramientas gráficas, tales como los biplots para visualizar los datos. El resultado fue