Universo y muestra: un ejemplo muy didáctico en el que La Caixa lo hace todo mal

Los manuales de estadística al uso introducen los conceptos de universo y muestra y tienden a ilustrarlos con ejemplos buenos. Pero los ejemplos buenos son útiles solo hasta cierto punto: ilustran, como digo, pero ni caracterizan ni delimitan. Los ejemplos malos, sin embargo, son muy útiles porque ayudan a trazar una frontera entre lo que es y lo que no es permisible.

Pero, ¿de dónde sacar buenos ejemplos malos? Aunque no es fácil, nuestros colegas de La Caixa Research han tenido la gentileza de ponernos uno a huevo: es Los precios de la luz están por las nubes, ¿y el importe de su recibo? (que ha sido recogido y glosado por el inefable elDiario.es aquí).

[Nota aclaratoria para lectores de otros sitios o de un futuro lejano: hay un debate en la España de finales de 2021 sobre si el precio de la electricidad ha subido o no. Dependiendo de al respuesta que des a esa pregunta y a través de mecanismos muy tediosos de explicar y desarrollar, un interlocutor malintencionado puede inferir tus preferencias de voto con un margen de error minúsculo.]

Esencialmente, en el estudio, como tienen acceso a la base de datos de movimientos bancarios de los clientes de La Caixa, los autores pueden hacer

select
  year, month, median(amount)
from
  customer_invoices
where
  year >= 2018 and
  type = 'electricity'
group by
  year, month
;

para obtener una serie temporal que después pintan de varias formas y describen en un par de páginas de texto.

El universo del estudio es las familias (españolas) y en eso no hay problema. El problema está con la muestra. Que tiene una cosa buena (¡un tamaño de 2 millones!) y un montón de cosas malas.

Para empezar, que la muestra está conformada por clientes de La Caixa, lo cual implica, para empezar, grandes sesgos territoriales y, sin duda, otros relativos a edades, niveles de ingresos, etc. (Para el que no lo sepa, las carteras de clientes minoristas de los distintos bancos españoles tienen sesgos muy marcados y, aunque no se diga abiertamente, se sabe que el banco tal es de viejos, etc.)

Pero es todavía más grave que esa muestra cambia mes a mes. No está claro si todos los clientes del primer mes están en el segundo, si aparecen otros nuevos, si estos nuevos son cualitativamente distintos de los primeros, etc. En particular, a la base de datos de clientes de La Caixa se añadieron los de la antigua Bankia durante el periodo en cuestión. ¿Se habrá tenido en cuenta? Poco parece importar a los autores aclarárnoslo.

Notas finales

El estudio al que me refiero hoy está todo mal. Tanto que da para discutir e ilustrar varios problemas distintos. Me he centrado arriba en los relativos a la muestra y su sesgo, pero podría haber considerado otros enfoques.

Por ejemplo, que hayan realizado un diseño inter-sujeto y no intra-sujeto. En un diseño inter-sujeto habrían construido las trayectorias de un conjunto de hogares durante el tiempo y habrían analizado sus tendencias. Aquí, sin embargo, han analizado la evolución del sujeto mediano en el tiempo represente este lo que quiera representar. Un estudio inter-sujeto es informativo en tanto que los sujetos son similares (átomos, hormigas, etc.) y cabe agruparlos. Cuando son disímiles (personas, consumos eléctricos, etc.), lo suyo es decantarse por el estudio intra-sujeto y realizar lo que se llama un estudio longitudinal. Da para otra entrada.

O podría haberme centrado en la relación que tiene el estudio con ese debate acerca del big data vs estadística tradicional (vía muestreo). Aunque este estudio no da ni para eso. El debate es relevante cuando el big data contiene todos los datos. Ahí pasan cosas de cierta enjundia como las que se discuten brevemente aquí. Pero en este estudio no se presume de tener todos los datos sino, simplemente, una muestra muy grande.

Final y muy oportunamente, me ha llegado recientemente este artículo que abunda sobre estas cuestiones.