¿Es realmente posible la anonimización?

Pues depende a quién se lo pregunte uno. Por ejemplo, el 56% de los encuestados por KDnuggets dijeron que sí. En cambio, uno de los lectores de este blog aventuró lo contrario.

Es curioso que este debate: pudo haberse abierto mucho tiempo atrás —p.e., son públicos los microdatos de la EPA y de muchas otras encuestas en España— pero que, de no habérseme pasado por alto, sólo ha despegado con particular virulencia a raíz de la popularización de estas competiciones de minería de datos de las que he hablado en alguna ocasión.

Así, a raíz de la competición de Netflix, apareció publicado, por ejemplo, este artículo sobre cómo realizar una deanonimización masiva de tales conjuntos de datos (algunos lectores, en lugar de la aridez del artículo, preferirán la amenidad de esta otra página concomitante). El asunto, incluso, ha llegado a llamar la atención de ciertos abogados.

Es cierto que existen técnicas de anonimización más o menos avanzadas, pero quiero dejar a mis lectores una tarea para que este puente de la Hispanidad emborronen el envés de un sobre viejo:

  • Datos personales de la encuesta anónima: código postal, fecha de nacimiento, sexo.
  • Universo: EE.UU. (300 millones de habitantes, unos 30.000 códigos postales distintos).

¿Es necesario que enuncie el problema?