Estadística

"Datathon for Social Good" de Telefónica

El Datathon for Social Good es una iniciativa de Telefónica para desarrollar aplicaciones analíticas que redunden en un bien social que está teniendo lugar estos días (¡aún hay tiempo para registrarse!).

Estos son los tres tipos de datos con los que se contará:

  • Recuento de personas en el área metropolitana de Londres durante 3 semanas, por sexo, edad y grupos para cada área en rango horario. Datos inferidos de cuántos están en su hogar, en trabajo o de visita.
  • Datos abiertos y geo-localizados de medios de transporte (autobús, metro, bicicleta). Admisiones en hospitales. Localizaciones de servicios de emergencia.
  • Datos no-localizados de Twitter con el hash-tag “London”. Cantidad representativa de tuits por hora.

Además, la competición será inaugurada con una conferencia a cargo del profesor Alex “Sandy” Pentland del MIT y Gavin Starks, director del Open Data Institute el martes 3 de Septiembre.

Así las gastan otros INEs

Este vídeo es una entrevista de la BBC a

que hablan en ella de políticos que hacen referencia a hechos imperfectos.

Y, ¿sabéis qué? Resulta que el INE británico envía cartas a políticos de todos los colores en los que les recrimina el uso inadecuado de cifras y datos. Y no solo las envía, sino que las publica. ¡Increíble!

Mapas, mapas, mapas... ¿y?

No paro de decir para mis adentros “¿y?” según hojeo el recién publicado Atlas de mortalidad en municipios y unidades censales de España.

En el prefacio del estudio se lee:

En sus páginas encontrará los reflejos de las construcciones sociales que condicionan las oportunidades de salud y bienestar de las personas, mostrando que el espacio para políticas de reducción de desigualdades sociales en salud es amplio.

Pues no, no encuentro reflejos de construcciones sociales. Lo que encuentro son áreas administrativas. Las construcciones sociales que ocurren dentro de dichas áreas administrativas brillan, si acaso, por su ausencia.

¿Suben o bajan?

La respuesta es sí, obviamente. Pero no todo el mundo maneja la lógica retorcidamente y aplicado a la mediana de los salarios estadounidenses los más comenzaríamos a hacer distingos en lugar de encerrarnos en la tautología.

Leo en Revolutions cómo dicha mediana ha crecido un 1% anualmente desde el 2000. Pero, a la vez, la mediana ha descendido en cada uno de los grupos definidos por el nivel de estudios (sin, bachillerato, universitarios, etc.).

Medianas ponderadas en R

La mediana de 1:3 es 2. Pero puede ser que queramos dar a 1:3 los pesos 2, 1, 2. En ese caso, el cálculo de la mediana sigue siendo sencillo (y sigue siendo 2). Pero la situación puede complicarse más.

Mientras los pesos sean enteros, todavía pueden usarse trucos:

x <- 1:3
pesos <- c(2,1,2)
median(rep(x, times = pesos ))

¿Pero qué hacemos cuando hay pesos fraccionarios? Bueno, en realidad, podemos ordenar:

n <- 1000

x <- runif(n)
pesos <- runif(n)
o <- order(x)
x.o <- x[o]
pesos.o <- pesos[o]
x.o[min(which(cumsum(pesos.o) > .5 * sum(pesos.o)))]

Pero me parece más limpio usar el paquete quantreg:

Una macro para generar titulares sobre resultados de encuestas

Tropecé el otro día con un artículo en el NYT del que reproduzco (incluido el enlace) un párrafo:

Only 23 percent of respondents would now vote for the Popular Party, according to a telephone survey by Metroscopia, a pollster, and published by El País this month. That is near the lowest level since Mr. Rajoy came to power in November 2011. Meanwhile, 86 percent of those surveyed said that they did not trust Mr. Rajoy. The survey was based on interviews with 1,000 adults and has a margin of sampling error of plus or minus 3 percentage points.

La EPA, en Materia (y otros medios)

Ha salido publicado recientemente un artículo en Materia sobre la EPA. Abunda sobre los temas que traté en una charla anterior. Y agradezco a su autor, Daniel Mediavilla tanto el haberse interesado por el asunto como el mencionarme en el artículo.

El artículo ha sido reproducido en otros medios, como elDiario.es y El Economista.

Puede que el titular (¡ah!, esa manía de los periodistas por el titular) invite a interpretaciones que poco tienen que ver con el contenido y la intención del texto. Es curioso, en ese sentido, leer los comentarios de los lectores de los tres medios en que ha aparecido la noticia. De los que extraigo la siguiente conclusión: ¡qué dura va a ser la campaña contra el anumerismo!

Conceptos estadísticos que desaprender: suficiencia

Leí hace unos días en alguna bitácora que el autor, de tener que retirarse una larga temporada a una isla desierta, llevaría consigo un ejemplar de la inferencia estadística de Casella y Berger. Así que me picó la curiosidad, lo bajé de internet y comencé a leerlo por el primer capítulo que me pareció interesante, el sexto, titulado Principles of Data Reduction.

El título es sugerente y da la impresión de que nos enseñará cómo sintetizar conjuntos de datos grandes con unos pocos indicadores. Y comienza por introducir el concepto de suficiencia que, recuerdo, constaba en aquel terrible libro mío de estadística de segundo de carrera. Repasémoslo:

pqR: un R más rápido

Hace no mucho, Radford Neal publicó pqR, una versión de R más rápida. Y algunos os preguntaréis qué es y de dónde salió esa reimplementación.

La respuesta breve es la siguiente: no hace tanto, cuando R iba por la versión 2.13, Neal sugirió una serie de modificaciones (patches) para mejorar el rendimiento de R en algunos aspectos. Creo recordar que eran catorce, aunque bien pudo haber habido otros posteriores. Los desarolladores de R, sin embargo, rechazaron algunos (si no todos) de ellos por motivos de diversa índole pero que se resumen en lo siguiente: