Dime qué muestreas y te diré cuál es tu sesgo

El telón de Aquiles del big data es el sesgo. Me gustaría hablar más de ello, pero me agarra de la pluma uno de esos NDAs. Así que hablaré de otra cosa.

Si le preguntas a la gente cuántos hermanos son en la familia, el promedio del resultado tenderá a ser superior al número medio de hijos por familia. Esencialmente, porque no estás muestreando familias sino hijos. El tautológico hecho de que las familias con más hijos tengan más hijos hace que estén sobrerrepresentadas en la muestra.

De la misma manera, si para calcular el promedio de seguidores por cuenta de Twitter te fijas en aquellos a los que sigues, sobreestimarás de nuevo. Porque no estás muestreando usuarios sino enlaces y, de nuevo, aquellos que más enlaces tienen estarán sobrerrepresentados en la muestra.

Etc.

Efectivamente, cuando una empresa usa el big data para estimar lo que sea, corre el riesgo de que su muestreo esté seriamente sesgado. Aunque solo sea porque dicha empresa no dispone sino de una muestra sesgada: típicamente, aquellos que son sus clientes.