Un generador de datos sintéticos para proteger la privacidad de los microdatados
DataSynthesizer (véase también el correspondiente artículo) es un programa en Python que:
- Toma una tabla de datos (microdatos, de hecho) que contiene información confidencial.
- Genera otra aleatoria pero que conserva (¿los conservará?) la estructura básica de la información subyacente (conteos, correlaciones, etc.).
Está pensado para poder realizar el análisis estadístico de (determinados) datos sin verlos propiamente.
Particularmente interesante es el algoritmo para preservar la correlación entre columnas.
[Nota: he aprovechado la entrada para acuñar el neologismo microdatado para referirme a quien figura en un fichero de microdatos.]