Una sociedad para la eliminación del coeficiente de correlación

Este artículo comienza así: En los inicios de su carrera estadística, John Tukey se unió a la Sociedad para la Eliminación del Coeficiente de Correlación de Charlie Winsor. ¿No os intriga el resto?

29 de julio de 2015 · Carlos J. Gil Bellosta

Aterrizando en Londres: una frase para meditar

Estaré aterrizando en Londres cuando se publique esta entrada. Circunstancia que me hace recordar una frase que leí hace un tiempo: El empleo barato creado [en el RU] atrae a miles de parados del continente a un país con una legislación laboral flexible y sindicatos debilitados, que tolera abusos como los muy extendidos “contratos de cero horas”. ¿Soy solo yo al que le chirría? ¿Por qué querrán miles de parados del continente tomar tal vez el mismo EasyJet que yo para tener que tolerar abusos?

28 de julio de 2015 · Carlos J. Gil Bellosta

Explorando la desigualdad en Medialab-Prado

Hay una convocatoria abierta en Medialab-Prado para proponer (primero) y desarrollar (más tarde) proyectos que exploren la desigualdad. Los detalles están en el enlace anterior, pero traslado aquí los más urgentes: Los talleres se desarrollarán del 23 al 25 de octubre y del 11 al 13 de diciembre de 2015. La convocatoria está abierta del 15 de julio al 15 de septiembre. Supongo que conocéis el chiste del estadístico y el pollo: que si una persona se come uno y otra ninguno, vendrá aquel y dirá que ambos comieron (en promedio) medio. Esta es una ocasión en que podemos reivindicar lo contrario y aportar nuestra experiencia al respecto. ...

27 de julio de 2015 · Carlos J. Gil Bellosta

Mis respuestas en una entrevista sobre "big data", periodismo de datos, etc.

Aunque no hay una definición exacta sobre la minería de datos… ¿cómo definiría usted Big Data?¿Qué herramientas utiliza usted para la búsqueda de datos? (públicas o privadas) Dicen los marxistas –aunque el concepto es anterior– que un cambio cuantitativo, a partir de cierto umbral, desencadena un cambio cualitativo. Las empresas, las instituciones públicas, etc. siempre han almacenado y estudiado estadísticamente datos a nivel de subsidiaria, departamento, provincia, oficina, región, producto, etc. Solo recientemente han visto que es técnicamente posible estudiar sus datos a nivel de individuo (ciudadano, cliente, etc.). Eso ha implicado que el tamaño de los conjuntos de datos han crecido (ahí el cambio cuantitativo) en varios órdenes de magnitud (¿tres? ¿cuatro?). El cambio cualitativo concomitante es lo que llamamos big data. ...

24 de julio de 2015 · Carlos J. Gil Bellosta

La media, medidas de centralidad y distancias

El problema de hoy viene sugerido por la manera de encontrar un valor central —una medida de centralidad— en una serie de números $x_1,\dots, x_n$. A uno se le viene a la mente la media de dichos puntos, por supuesto. Pero la media no es sino el valor $\theta$ que minimiza $$ \sum_i (x_i - \theta)^2.$$ En lugar de minimizar la distancia al cuadrado entre ese punto central y los de la serie, podríamos usar otras funciones. Es sabido que si tratamos de minimizar ...

23 de julio de 2015 · Carlos J. Gil Bellosta

Estrategias escalables con R

Recomiendo leer Scalable Strategies for Computing with Massive Data, un artículo que trata dos de los problemas de escalabilidad con que tropezamos los usuarios de R: Los de memoria, para los que proponen e ilustran el uso del paquete bigmemory. Los de velocidad de ejecución, a los que se enfrentan paralelizando el código, tanto en una única máquina como en un clúster, con foreach. En el artículo no solo discute los dos paquetes por separado sino que ilustra además cómo usarlos conjuntamente en su propuesta de estrategia escalable con R.

22 de julio de 2015 · Carlos J. Gil Bellosta

Un curioso corolario (politicoeconómico) del teorema de Rolle

El teorema de Rolle, que está en el programa de cálculo o análisis matemático de primero de cualquier carrera, dice que una función real $f$, continua, derivable y tal que $f(a) = f(b)$ tiene o un máximo o un mínimo en el intervalo $[a,b]$. La Wikipedia lo ilustra con el siguiente gráfico: Supongo que no será muy difícil de probar este corolario suyo (y creo recordar que fue un ejercicio o problema de examen de aquella época mía de estudiante): una función real $f$, continua, derivable y tal que $f(a) = f(b)$ y $f^\prime(x) < 0$ en la proximidad de $b$ tiene un máximo absoluto en el intervalo $(a,b)$. ...

21 de julio de 2015 · Carlos J. Gil Bellosta

No uses el test de Wilcoxon, nos dice Gelman

Andrew Gelman nos invita a no usar más el test de Wilcoxon. El test de Wilcoxon reemplaza las observaciones obtenidas por sus rangos y construye un estadístico basado en estos últimos. Eso implica descartar información pero puede ayudar a ganar robustez en situaciones en que los datos se desvíen de la normalidad. ¿Qué sugiere Gelman? Que si realmente estamos dispuestos a descartar información, en lugar de reemplazar las observaciones originales por sus rangos, usemos z-scores —los cuantiles de la normal estándar correspondientes a los cuantiles muestrales—, y usemos la teoría normal (en su doble acepción). ...

20 de julio de 2015 · Carlos J. Gil Bellosta

La variación y sus negacionistas

Las entradas de esta semana han girado alrededor de un tema: la comparación bajo incertidumbre. La remato recomendando un artículo de Stephen Few, Variation and Its Discontents, que tiene un subtítulo de lo más oportuno: Funnel Plots for Fair Comparisons. Nota: Los lectores más fieles de estas páginas recordarán entradas viejas, como esta, que también sugerían el uso de gráficos de embudo (o trompeta).

17 de julio de 2015 · Carlos J. Gil Bellosta

Un modelo jerárquico para lo de Casillas

Vuelvo a lo de Casillas inspirándome en el primer ejemplo de este artículo de Gelman et al. El planteamiento es el siguiente: el número de paradas, $n_i$, que realiza el $i$-ésimo portero tiene una distribución binomial $$ n_i \sim B(N_i, p_i)$$ donde $N_i$ es el número de disparos entre los palos y $p_i$ es la habilidad innata del portero. Estas habilidades innatas siguen una distribución dada, la de habilidades innatas de los porteros de primera división, que podemos suponer que sigue una distribución beta ...

15 de julio de 2015 · Carlos J. Gil Bellosta