Manipulación y discriminación
I.
Hace unos años, en un congreso de R, hubo un panel de periodistas de datos. En la ronda de preguntas, alguien del público preguntó: “¿cómo manipuláis los datos?” Muy previsiblemente, los tres panelistas respondieron respodieron rápida y destempladamente: “No manipulamos los datos”.
II.
Discriminar —es decir, separar una masa en unidades homogéneas— es una de las tareas tradicionales de la estadística. La técnica más básica y explícita de discriminación (el análisis discriminante lineal), fue introducida por Fisher entre 1936 y 1940 en una serie de artículos, de entre los cuales, el más famoso es
The use of multiple measurements in taxonomic problems,
publicado nada menos que en los Annals of Eugenics, y en cuya segunda página aparece en toda su gloria y para la posteridad en famoso conjunto de datos iris
.