Si tus datos son minúsculos y están hipersesgados, no los tires a la basura: aquí te contamos cómo reciclarlos.

I.

Supongamos que X es una población determinada. A alguien le interesa estudiar cierto aspecto de ella. Lo que procede es:

  1. Muestrear X adecuadamente.
  2. Medir los parámetros de interés en la muestra.
  3. Aplicar técnicas de inferencia estadística.
  4. Redactar las conclusiones pertinentes.

II.

Supongamos que a alguien le interesa aprender sobre cierto aspecto de una población X. Lo que tiene que hacer es buscar publicaciones en que lo hayan estudiado como se indica en I. Seguramente hay muchas más fuentes que hablen de ese aspecto de la población X, pero si no se han redactado siguiendo el esquema anterior o no están basados en fuentes primarias que lo hayan hecho así, solo acertarán, si lo hacen, de casualidad.

El tiempo que uno invierte en consultar esas fuentes es no solo tiempo perdido sino, además, contraproducente casi siempre: es muy probable que le llenen a uno la cabeza de conocimientos falsos.

III.

Ahora, X es una población de humanos concreta pero que no revelaré aún. Alguien quiere estudiarla y aplica el siguiente esquema de muestreo:

  1. Un porcentaje inespecífico pero, casi seguramente, sesgado de los miembros de X reciben invitaciones para acudir a un evento friqui en el quinto pino.
  2. Unos cuantos de ellos acceden y se van al quinto pino a hacer cosas friquis.
  3. Dentro del evento friqui hay una actividad especialmente friquifriqui hasta para los friquis— en la que se anotan cinco miembros de X.

Ahora, un tipo se fija en esa muestra con $n=5$ y extrapola a todo X. Obviamente, concluye que los miembros de X son extremadamente friquis.

IV.

El autor del estudio $n=5$ podía haber tratado de publicar sus conclusiones en una revista académica. Pero entonces los revisores se le habrían echado encima denunciando que $n = 5$, que si la muestra está sesgada, etc. y que todo es un puro non sequitur. Bueno, la menos en teoría: las ciencias sociales son un sea of garbage.

El autor del estudio $n=5$ podía haber publicado sus resultados en Twitter. Pero entonces el TST (Twitter Stats Team), se le habría echado encima: que si el tamaño muestral es minúsculo, que si la muestra está sesgada, etc. y que todo es un puro non sequitur. Bueno, al menos en teoría: el TST actual es manifiestamente perfectible y selecciona de manera muy previsible las ocasiones en las que se digna a desempolvar los manuales de metodología.

Lo que puede hacer el autor es escribir un libro. Por ejemplo, este. En un libro, como todo cabe. Además, con suerte, ganas dinero, te entrevista la prensa internacional y tus argumentos resuenan hasta en las peluquerías.

Así es el mundo.

V.

Mi interés por tanto por la población X en cuestión como por todo lo que tenga que decir el tipo que escribió sobre ella tanto sobre este asunto como sobre cualquier otro es cero. Pero para poder documentar esta entrada he tenido que trascender los resúmenes aparecidos en prensa sobre el tema y comprobar si, efectivamente, la evidencia empírica que muestra el libro coincidía o no con la que se deducía de las reseñas. Sin embargo, para comprobarlo fehacientemente y no faltar a la verdad hacía falta manipular demasiada mierda. La manera más efectiva e higiénica que se me ocurrió fue:

Las conclusiones de esa lectura:

  • Efectivamente, el proceso de muestreo es el que se ha descrito más arriba.
  • Apenas un par de capítulos tratan de eso.
  • El resto son un recocido de desvaríos poco originales asperjados de anecdotillas que solo interesan al autor (del libro, no el de estas letras).

Circo.