Más sobre el error de medida

En el periódico del domingo nos regala Ángel Laborda un parrafito delicioso que abunda en el tema tratado en mi última entrada sobre el una error de medida.

Así dice:

Ahora bien, hay que tomar estos datos con muchas cautelas. Una vez más estamos delante de datos estadísticos de cierta complejidad a la hora de interpretarlos y de valorarlos. En primer lugar, se observa que la desestacionalización de los mismos que hacen, por un lado, el Ministerio de Economía y, por otro, el INE cuando los utiliza en el cálculo de la contabilidad nacional, difiere notablemente. En segundo lugar, los deflactores utilizados por ambos organismos para pasar de precios corrientes a constantes también vienen difiriendo significativamente (en el primer caso se utilizan los valores unitarios y en el segundo, los índices de precios de exportación e importación de productos industriales complementados con alguna otra información para los no industriales). Todo ello lleva a obtener tasas intertrimestrales bastante diferentes en un caso o en otro. Haciendo un cálculo aproximativo, hasta que en la próxima semana conozcamos las estimaciones del INE, llegamos a la conclusión de que la caída intertrimestral a precios constantes de las exportaciones ha sido algo mayor a la señalada anteriormente y, en cambio, la de las importaciones ha sido bastante menor, situándose incluso por debajo de las exportaciones, con lo que la aportación conjunta al crecimiento del PIB ha podido ser de nuevo negativa.

Error de medida

Por su interés y oportunidad, reproduzco aquí y en su idioma original (la parque que nos es más relevante de) un breve editorial de Simon Baptist, economista jefe de The Economist Intelligence Unit.

Así reza:

This week we had some apparent good news with [Indian] GDP growth at the end of 2014 revised upward to 7.5% but, looking closer, a large part of the good performance is due to changes in the way that GDP is calculated. These changes are welcome, as they better reflect the structure of the current Indian economy, but remind me that the mind-numbingly boring issues of price deflators and sectoral weights are actually much more important to economic statistics than issues of reform or central bank behaviour. Although it is less exciting, we economic commentators really should spend more time focusing on where our numbers come from rather than breathlessly extolling changes that are smaller than the likely measurement error. Either way, really understanding the context of data and forecasts is critical to making good business decisions.

Decisiones "a ojo de buen cubero"

¿Os acordáis del problema de la carta del otro día? Lo extraje del libro Risk Savvy de G. Gigerenzer.

Uno de los grandes temas del libro es la distinción entre riesgo e incertidumbre. Se decanta por la perspectiva de Knight discutida en el enlace anterior: en situaciones de riesgo, la distribución de probabilidad es conocida (p.e., juegos de azar) y el aparataje probabilístico puede ser aplicado en su entera potencia matemática. En situaciones de incertidumbre, la situación es distinta y de poco o nada sirven los formalismos.

¿Vernacularidades? No, gracias

Como sabéis, vuelvo a España. Otro proyecto que termina. Habrá momentos para la nostalgia. Pero también, al menos, dos motivos para autofelicitarme. El primero tiene que ver con todo lo aprendido en estos doce meses.

El segundo, con todo lo que no he aprendido. Soy muy estricto con lo que me interesa y lo que no. ¿Qué me interesa? Aquello que me puede ser útil en otra parte. Al resto de las cosas las denomino vernacularidades y trato de evitarlas. Vernacular, etimológicamente, significa nacido en la casa de cada uno. Pero yo ya tengo una casa, la mía propia, gracias.

Un problema de cartas

Hay tres cartas. Una de ellas tiene ambas caras rojas; otra, ambas azules; la última, una roja y una azul. Al azar, te ponen una sobre la mesa. La cara que ves es roja. ¿Cuál es la probabilidad de que la cara que no ves sea también roja?

Curso de presencial y gratuito en Madrid (mío, para más señas)

Voy a impartir un curso básico de R en Madrid. El curso es

  • presencial (no habrá vídeo, retransmisión en streaming ni similares),
  • gratuito (aunque mira las letra pequeña del final)
  • no reglado, por lo que no se experidirán certificados, ANECAs o papeles de ningún tipo.

Se trata de un curso de introducción a R desde cero en cuatro sesiones de tres horas los martes (24 de febrero y 3, 10 y 17 de marzo) de 18:00 a 21:00. El programa de las sesiones es:

Movilidad municipal

Esto que cuento hoy es algo que, creo yo, pocos saben. Pero que han sufrido grandemente quienes hayan trabajando con datos municipales históricos: que de año en año, ocurren altas, bajas y modificaciones en esa lista que uno consideraría fija.

Aquí (y más concretamente aquí) puede consultarse la lista de las modificaciones en el mapa municipal en lo que llevamos de 2015. A través de los menús del primer enlace uno puede navegar hasta los cambios ocurridos en años anteriores.

Parametrización de modelos de supervivencia (paramétricos)

He participado directa o indirectamente en algunas decenas de los llamados proyectos de churn. Estoy al tanto de aún más de los que he hablado con otros colegas.

Digresión (para desavisados): se aplica (impropiamente) el término churn a aquellos clientes (en general) que abandonan una compañía o dan de baja un servicio. En realidad churn se refiere al flujo a corto plazo de clientes de poco valor que adquiere una compañía y que pierde enseguida. No sé por qué no se ha popularizado abandono. Uno de los primeros proyectos que abordan los departamentos de inteligencia de clientes de las compañías que se lo pueden permitir es tratar de identificar aquellos clientes con alta probabilidad de abandonarla.

Recurrencia recurrente

Pregunta Antonio Sánchez Chinchón cómo mejorar la parte menos vistosa e imaginativa de esto, es decir, el código. Él, y muchos diríamos que correctamente, autocritica el uso de eval + parse para plagar el namespace de funciones.

La respuesta está en la recurrencia. He aquí mi versión del código:

library(ggplot2)
library(gridExtra)

nrows <- 6
coefs.a <- runif(min=1, max=50, nrows)
coefs.b <- runif(min=1, max=50, nrows)

foo.a <- sample(c(sin, cos), nrows, replace = TRUE)
foo.b <- sample(c(sin, cos), nrows, replace = TRUE)

foo <- function(x, a, b){
  if(a == 1 || b == 1)
    return(foo.a[[a]](coefs.a[a] * x))

  if(b == a)
    return(foo.b[[a]](coefs.b[a] * x))

  foo(x, a-1, b) + foo(x, a-1, b-1)
}

vplayout = function(x, y) viewport(layout.pos.row = x, layout.pos.col = y)

opts=theme(legend.position="none",
      panel.background = element_rect(fill="gray95"),
      plot.background = element_rect(fill="gray95", colour="gray95"),
      panel.grid = element_blank(),
      axis.ticks=element_blank(),
      axis.title=element_blank(),
      axis.text =element_blank())

grid.newpage()

jpeg(file="AddingWaves.jpeg", width = 1800, height = 1000,
      bg = "gray95", quality = 100)

pushViewport(viewport(layout = grid.layout(nrows, 2*nrows-1)))

for (i in 1:nrows) {
  for (j in 1:i) {
    print(ggplot(data.frame(x = c(0, 20)), aes(x)) +
            stat_function(fun = function(x) foo(x, i, j),
                  colour = "black", alpha=.75)+opts,
          vp = vplayout(i, nrows+(2*j-(i+1))))
  }
}

dev.off()

El resultado es

Vuelvo a España

Al final y contra todo pronóstico, me han afectado los despidos de eBay.

Así que vuelvo a España. Pronto se me verá por Madrid. Que la primavera sea propicia para las ideas que me rondan la cabeza.

Una nota sobre pésames y jódetes: que nadie se sienta obligado a darme los primeros o pierda el tiempo cantándome los segundos. A mi edad, las dos únicas palabras que me afectarían son las de es cáncer. Lo sucedido son puros y amortizadísimos gajes del oficio.