Números

Balanzas fiscales (así, en plural)

En España, lo de las balanzas fiscales es como lo de las manifestaciones: un número que se tiran a la cabeza y con muy mala baba tirios y troyanos. La cantinela que más se oye es la de la prensa periférica (perdón, prensa de la parte este de la periferia: existen otras periferias que callan como palabras de cuatro letras): dizque Cataluña aporta mucho más a la hacienda pública que lo que después recibe de ella por inversiones y servicios.

De D'Hondt a Banzhaf

Hablé el otro día con Emilio Torres y comentamos de pasada la situación política en Asturias, donde vive, después de las últimas elecciones. El escaño obtenido por UPyD otorgaba a tal partido un poder en exceso del tamaño de su representación porque era clave para formar el futuro gobierno del principado. Pero, ¿cuánto poder realmente supone ese escaño en esas condiciones? ¿Puede cuantificarse?

Porque se habla mucho en periodo electoral de la ley D’Hondt pero, una vez asignados los escaños, cambia el juego.

¿Creer o no creer?

El otro día me llegó por correo el Informe sobre el Uso del Software Libre en los Hogares Españoles 2011. Lo realiza el CENATIC, Centro Nacional de Referencia de Aplicación de las Tecnologías de Información y la Comunicación basadas en Fuentes Abiertas, por lo que uno espera, de antemano, cierto sesgo.

Una de las tablas de resultados es:

Entiendo que los porcentajes de uso se refieren al universo de la población española, extrapolados mediante un […] muestreo por cuotas, donde se incluyen cuotas con afijación proporcional al peso real de la población objeto, obteniendo estos datos del Instituto Nacional de Estadística, en el período más actualizado.

Otra de huelgas

Hoy, por motivos evidentes, e igual que en septiembre de 2010, voy a hablar de huelgas. De la misma fuente que entonces he descargado este fichero. Y he ejecutado

library(pxR)
library(reshape)
library(ggplot2)

dat <- read.px("pcaxis-623612450.px")
dat <- as.data.frame(dat)

dat.mes <- cast(dat, Periodo ~ series)
colnames(dat.mes) <- c("mes", "n.huelgas", "n.trabajadores", "n.jornadas")

p <- ggplot(data = dat.mes) + geom_line(aes(x = mes, y = n.huelgas, group = rep(1, nrow(dat))))
p
ggsave("huelgas_por_mes.png")

dat.anno <- dat

tmp <- strsplit(as.character(dat.anno$Periodo), "M")
dat.anno$Periodo <- sapply(tmp, function(x) x[1])

dat.anno <- cast(dat.anno, Periodo ~ series, fun.aggregate = sum)
colnames(dat.anno) <- c("anno", "n.huelgas", "n.trabajadores", "n.jornadas")

p <- ggplot(data = dat.anno, aes(x = anno, y = n.huelgas, group = rep(1, nrow(dat.anno)))) + geom_line()
p <- p + geom_point(aes(size = n.jornadas))
p <- p + scale_x_discrete("año") + scale_y_continuous("número de huelgas")
p
ggsave("huelgas_por_anno.png")

p <- ggplot(data = dat.anno, aes(x = anno, y = n.trabajadores/n.huelgas, group = rep(1, nrow(dat.anno)))) + geom_line()
p <- p + scale_x_discrete("año") + scale_y_continuous("número de trabajadores por huelga")
p
ggsave("trabajadores_huelga_por_anno.png")

p <- ggplot(data = dat.anno, aes(x = anno, y = n.jornadas /n.huelgas, group = rep(1, nrow(dat.anno)))) + geom_line()
p <- p + scale_x_discrete("año") + scale_y_continuous("número de jornadas por huelga")
p
ggsave("jornadas_huelga_anno.png")

para obtener, por un lado, el número de huelgas por mes desde enero de 1995 a noviembre de 2011:

Contrafactualidad radial

Leí estas navidades un libro sumamente recomendable, España, capital París, de Germà Bel. Su tesis ha vuelto a ser glosada recientemente por César Molinas dentro de una serie de artículos, igualmente recomendables, en El País.

La tesis explícita de este libro es simple y documentalmente incuestionable: que la red de infraestructuras españolas fue diseñada al servicio de una visión esencialmente administrativa de España, con Madrid en su centro, y al margen de las necesidades de la economía. Como consecuencia, las regiones económicamente más dinámicas quedaron relegadas, se crearon graves ineficiencias y se incurríó en severos costes de oportunidad. Todo por servir al funcionariado, a una cierta visión de la realidad nacional y al que tan acertadamente retrata Molinas como capitalismo de palco del Bernabéu.

Acceso y reutilización de datos públicos

Las leyes son un carajal. Últimamente he tenido que enfrentarme a algunas y me doy cuenta de que es un error que los abogados (y los legisladores) no hayan seguido nunca un buen curso de geometría euclídea.

Pongo un ejemplo. La Constitución Española (artículo 22) dice que las asociaciones deberán inscribirse en un registro a los solos efectos de publicidad. Pues bien, parece ser que una asociación, y nos ocurrió con la Comunidad R Hispano no es legal (para poder abrir una cuenta corriente, por ejemplo) de no inscribirse en el registro. ¿Pero no era a los solos efectos de publicidad? ¿Son lo mismo publicidad y legalidad?

I+D+i, Regnum Hispaniarum, circa 2012 A.D.

Llegó a mis manos el otro día un artículo sobre el reciente Mobile World Congress de BCN y en particular, sobre la significativa presencia de empresas de Israel en el mismo.

Y llegó a mis manos no tanto por el interés de quien me lo remitió por los teléfonos móviles o los arcanos del Talmud sino por el siguiente párrafo, en el que, entiendo, quiso ver algún quid (el subrayado está en el artículo):

Las palabras esenciales del diccionario

Me he entretenido en los últimos tiempos tratando de responder una pregunta que, sin inquietarme, no dejaba de despertar mi curiosidad.

En la escuela nos enseñaron a definir palabras. Una de las primeras reglas de aquel juego era que el término definido no podía usarse en la definición: casa no se puede utilizar para definir casa. Los niños lo entendíamos. Sin embargo, los mayores hacían trampa: en el DRAE, construir se define en términos de edificar y edificar, en términos de construir.

Estrenos con ecos estadísticos (II): Contagio

La otra de las películas que vi durante mis vacaciones en que resonaban ecos estadísticos fue Contagio. Como casi todas las películas, personaliza. Y es que a la gente le gusta ver caras. Así nos cuenta la historia de una rubia, su marido, su hija, etc. Excipiente lacrimógeno.

(Aunque alguien pueda querer ver en la rubia la trasunta de Gaëtan Dugas, el paciente cero; igual que —según algunos— Dugas, es la primera persona en contagiarse de un virus letal y lo transporta a EE.UU., donde se desencadena una epidemia).

Cómo poner una lavadora

Hacer una colada no es sencillo. Al menos si se tienen en cuenta todas las variables relevantes. En realidad, yo echo la ropa a la lavadora al tuntún y no sé de separar por colores ni por tipo de tela. Va todo junto. Y siempre uso el mismo programa, cantidad de detergente y del otro líquido azul que no sé para qué sirve.

Lo que me preocupa, la variable que con más atención considero, es el impacto ambiental, el consumo de energía. Más específicamente, las emisiones de CO2.

Estoy muy de acuerdo con la CEOE...

… cuando dice que hay que ver qué pasa y analizar las estadísticas. En lo demás, no lo sé (ni lo pienso decir aquí). Pero traigo el asunto a colación porque hace un par de días hablé, un tanto exteporáneamente, sobre desempleo y subsidios. Y uno de mis lectores hizo un comentario del que extraigo

No me gusta, no me gusta que se insinúe siempre que “España está llena de listos, que agotan el paro porque les sale mejor que trabajar”.

Higiene numérica para periodistas

De la bitácora de Getstats y a través de un enlace publicado por Alberto Cairo en su cuenta de Twitter, he llegado a lo que los periodistas deberían saber (para informar correctamente cuando el asunto tiene tintes cuantitativos).

Proporciona un enlace a un documento que me tomo la libertad de traducir aquí. Se trata de una lista con los siguientes doce consejos:

  1. Si tropiezas con un número en una historia o comunicado de prensa, ten cuidado. Antes de darlo por bueno, pregúntate quién lo proporciona, cuáles son sus credenciales, si puede estar tratando de venderte algo. ¿Con qué otra evidencia se cuenta? ¿Cuáles son los números que no se muestran? ¿Por qué ese número precisamente ahora? Si el número procede de un estudio o de una investigación, ¿cuenta con visto bueno de algún experto de garantía?
  2. Husmea. ¿El número se refiere a una muestra? ¿A la población entera? En el primer caso, ¿la muestra se ha extraído adecuadamente? ¿Es representativa de la población?
  3. Profundiza. ¿Qué fue lo que se preguntó exactamente? La manera en que se formula una pregunta influye enormemente en la respuesta. Lo que se entiende por “tener trabajo” o “crimen violento” varía de persona a persona. Lo que la gente entiende puede no ser lo mismo que pensaba quien diseñó la encuesta.
  4. Para compendiar resultados pueden utilizarse distintos criterios. Por ejemplo, la media, que es altamente sensible a los valores extremos (la fortuna de Amancio Ortega incrementa el patrimonio _medio _de los españoles en unos 400 euros), pero también la mediana o la moda, con efectos distintos.
  5. La incertidumbre existe. Tenemos que estar seguros de la cifra obtenida no es efecto de la casualidad. Si se trata de una muestra, comprueba el margen de error, el ±3% que generalmente indican las compañías más serias. Si se dice en tal caso que el 52% de la muestra apoya X, el valor verdadero podría ser igualmente del 49%. Desconfía de los rankings, excepto los deportivos: el Real Madrid está por encima del Real Zaragoza por un buen motivo: ha obtenido más puntos en la liga. Pero la comparación de escuelas u hospitales es problemática y una escala simple podría no ser el instrumento adecuado: por ejemplo, un determinado hospital puede parecer peor, pero que suceda así porque recibe enfermos más graves. La comparación entre universidades o fuerzas policiales puede resultar no significativa si la diferencia entre puntuaciones es menor que el margen de error: si A obtiene 500 puntos y B 555, con un margen del error ±3% no puede decirse que A sea peor que B.
  6. Puede que los números indiquen una variación. Sin embargo, un solo cambio no significa una tendencia. Los saltos suceden a menudo. De suceder, podemos preguntarnos si obedecen a una recuperación o vuelta a la normalidad después de un salto en previo en la dirección opuesta (lo que algunos llaman regresión a la media). Si los números proceden de una encuesta, ¿excede el cambio el margen de error?
  7. De no realizarse un experimento controlado, (como los ensayos clínicos para estudiar el efecto de los nuevos medicamentos), es muy difícil poder afirmar que A causa B : los números pueden mostrar una asociación (una correlación) entre dos cosas como, por ejemplo, entre la obesidad y el cáncer. Pueden aparecer conexiones espurias debidas a un tercer factor no observado. El que los niños que usan teléfonos móviles presenten ciertos trastornos de conducta puede deberse a sus padres, cuyo comportamiento afecta a ambas cosas. Si los números sugieren una asociación, lo importante es evaluar su plausibilidad utilizando información adicional. El encontrar una posible causa puede estimular la investigación pero no debería ser utilizado para impulsar determinado tipo de políticas, por ejemplo. Tampoco se deben realizar recomendaciones sobre el consumo de ciertos alimentos basadas en presuntas asociaciones entre ellos y determinadas dolencias.
  8. Una pregunta clave es “¿de cuántos?”. Algunos sucesos son inusuales, como la muerte de un niño, y por eso son noticia. Pero tienen que considerarse en su contexto. La improbabilidad de un suceso es una medida de su relevancia como noticia. Pero es necesario distinguir lo que resulta importante para una determinada familia de lo que afecta al interés general.
  9. Los millones y los miles de millones son cifras difíciles de comprender si no se humanizan comparándolas, por ejemplo, con el país entero o mostrando su efecto sobre cada persona. Ciertas descripciones pueden ayudar a comprender el riesgo: es tan peligroso hacer un viaje de 100 km en moto como operarse con anestesia general.
  10. Una buena información debe ofrecer una visión equilibrada entre las cifras a las que se refiere. Es mejor centrarse en el número más probable que en los más extremos. Por ejemplo, en las historias sobre los efectos de una epidemia de gripe, en lugar de fórmulas como podría llegar a alcanzar valores tan altos como… son preferibles las del tipo _es improbable que exceda… _. Como los números pueden ser malinterpretados, es preferible eliminar el sesgo.
  11. El riesgo es arriesgado. Por ejemplo, la frase comer panceta diariamente aumenta el riesgo de llegar a padecer cáncer de intestino en un 20% viene a decir lo mismo que de cada 100 personas que comen panceta diariamente, una más acabarás sufriendo cáncer de intestino. Pero la primera es alarmista e inexacta. De estar disponible, es conveniente expresar la información en términos del número de afectados por cada cien o cien mil personas.
  12. Los medios digitales permiten mostrar datos de manera más dinámica e imaginativa. En cualquier caso, siempre hay que preguntarse: ¿son claros los gráficos? ¿Cuentan la misma historia que el texto?

Desempleo, incentivos y geometría

En un país hipotético, E, tienen un mecanismo de protección social que garantiza a los desempleados un subsidio consistente en nueve mensualidades de 100 euros (por simplificar). En este país viven cuatro ciudadanos, A, B, C y D:

  • A pierde su trabajo pero es diligente y capaz y encuentra otro al cabo de 5 meses. Recibe 500 euros de subsidio.
  • B pierde su trabajo y tarda 15 meses en encontrar otro. Recibe 900 euros de subsidio.
  • C pierde su trabajo y decide no buscar otro hasta agoter la prestación: con su guitarra y algunas chapuzas que le salen, vive. Recibe 900 euros.
  • D trabaja y tiene envidia de C. Piensa que por 150 euros haría lo mismo que él. Pero no por 100.

Al gobierno de E se le ocurre lo siguiente: pagar un subsidio de 180 euros el primer mes, 160 el segundo y 200  - 20 * n, el enésimo, es decir,