Modelos y sesgos (discriminatorios): unas preguntas
A raíz de mi entrada del otro día he tenido una serie de intercambios de ideas. Que han sido infructuosos porque no han dejado medianamente asentadas las respuestas a una serie de preguntas relevantes.
Primero, contexto: tenemos un algoritmo que decide sobre personas (p.e., si se les concede hipotecas) usando las fuentes de información habitual. El algoritmo ha sido construido con un único objetivo: ser lo más eficiente (y cometer el mínimo número de errores) posible. Usa además datos históricos reales. Lo habitual.
En la población existe un subgrupo B que, con razón o sin ella, se siente discriminado por el algoritmo.
Una primera pregunta que cabe plantearse es si el sesgo es bug o feature. En el primer caso, es culpa de los desarrolladores y cabe suponer que la entidad que lo utiliza está perdiendo dinero y cuota de mercado en favor de otras menos gañanas. Pero si es feature, la respuesta más interesante, ya no cabe hablar de prejuicio (sino de un juicio sinténtico a posteriori en toda regla).
En tal caso (el segundo), cuando el algoritmo está bien calibrado, ¿debería cambiarse por otro? Un ingrediente fundamental en la creación de un algoritmo es la definición de la función de error, que resume el objetivo que se quiere alcanzar. En nuestro caso, la rentabilidad económica (posiblemente operativizada en accuracy). Las funciones de error, salvo raras excepciones que confirman la regla, subsumen objetivos simples (que habitualmente son variantes de acertar) y resultaría complicado incluir en ellas correcciones para incluir objetivos subsidiarios (como los que precisaría el constructivismo social).
Pero ha quedado escrito por aquí como la ciencia de datos no es otra cosa que materia prima para un proceso de toma de decisiones (informadas) subsiguiente. Si hay un sesgo en el resultado del proceso de toma de decisiones, ¿es de recibo culpar a un único paso intermedio (el algoritmo)?
Finalmente, si el proceso de toma de decisiones (a partir de la información provista por el algoritmo) conduce a tomar decisiones que algunos consideran más justas pero que son menos rentables económicamente para la entidad que opera el algoritmo, ¿debería considerarse esa pérdida de eficiencia una especie de impuesto sobre la entidad? ¿Debería ser la entidad la responsable de cargar con el impacto económico de las ensoñaciones utopistas de algunos? Tal vez, si la mitad más uno estuviese de acuerdo, podría articularse algún tipo de subvención, línea de crédito especial o similar a cargo del erario público para compensar a las entidades esa pérdida económica.