La paradoja de Simpson en el 6eiiic
El día 26 de septiembre, alrededor del mediodía, participaré en el VI Encuentro Internacional de Investigación en Información y Comunicación.
Reproduzco aquí el no particularmente breve (y de hecho, el más largo de los publicados) resúmenes por si a alguien le tienta y se acerca:
Una parte fundamental de la labor de cualquier investigador consiste en interpretar adecuadamente los datos sobre los que trabaja. Existen innumerables obstáculos que dificultan dicho proceso: desde la inadecuada preparación para el análisis cuantitativo hasta los sesgos cognitivos estudiados por Kahneman, Tversky o Gigerenzer entre otros.
Uno de estos obstáculos es el conocido como la paradoja de Simpson. E. H. Simpson, en un artículo publicado en 1951 dio cuenta de cómo ciertas operaciones aritméticas elementales con fracciones conducían a resultados paradójicos a la hora de analizar y, sobre todo, interpretar resultados cuantitativos.
No obstante, la literatura recoge ejemplos previos de dicha paradoja que conduce a relaciones y conclusiones si no paradójicas, al menos contraintuitivas: uno de los ejemplos clásicos es el descrito por Cohen y Nagel en 1934. Estos autores advirtieron que a pesar de que la tasa de mortalidad de las poblaciones tanto blanca como negra de Richmond había sido inferior a la de Nueva York en 1910, la tasa de mortalidad conjunta resultaba ser superior en Richmond. Es esta inversión de las razones según se contemplen sobre datos agregados o desagregados la que se conoce como paradoja de Simpson.
Existe una literatura abundante sobre las causas y efectos de la paradoja de Simpson en áreas tan dispares como la de los análisis clínicos, la teoría de la calidad, etc. Pocas son las disciplinas que no cuentan con su anecdotario propio sobre las consecuencias de una interpretación superficial de los datos en los que se manifiesta dicha paradoja. Por eso, es razonable considerar que muchos de los usuarios de la estadística (economistas, sicólogos, etc.) están ya debidamente inmunizados frente a los efectos de la paradoja de Simpson, que son capaces de identificarla cuando ocurre y tomar las medidas oportunas para limpiar sus conclusiones de resultados espurios.
El actual despliegue del periodismo de datos hace necesario extender la campaña de vacunación frente a la paradoja de Simpson a ese nuevo colectivo de investigadores cuantitativos. De la urgencia de este programa es síntoma la existencia el uso del término proliferación sería excesivo de ejemplos aparecidos en los grandes medios de análisis que bien podrían considerarse afectados por la paradoja de Simpson.
Esto es tanto más de lamentar cuanto que los prerrequisitos para identificar y resolver la paradoja son conceptos aritméticos elementales.
El objetivo de la charla es cuádruple. En primer lugar, presentar la paradoja de Simpson junto con algunos ejemplos clásicos. En segundo lugar, explicar los principios aritméticos de los que es consecuencia haciendo hincapié en aquellos aspectos que permitan identificar las situaciones en las que puede ocurrir este fenómeno. En tercer lugar, presentar algunos ejemplos recientes, próximos y en el ámbito del periodismo de situaciones en las que podría haberse llegado a conclusiones inadecuadas a causa de la paradoja de Simpson. Y, finalmente, dar pautas para la adecuada interpretación de los datos cuando estos se ven afectados por la inversión de razones.
¿Nos veremos allá?