sesgo

Solo el modelo vacío pasa todos los "checks"

Cuando uno crea uno de esos modelos que tanta mala fama tienen hoy en día —y sí, me refiero a esos de los que dependen las concesiones de hipotecas, etc.— solo tiene dos fuentes de datos: La llamada información _estadística _acerca de los sujetos: donde vive, sexo, edad, etc. Información personal sobre el sujeto: cómo se ha comportado en el pasado. Sin embargo, aquí se nos informa de cómo ha sido multado un banco finlandés por

Algoritmos y ética circa 1950

Estoy corrigiendo las partes de mi libro que tienen que ver con la teoría del a probabilidad para hacerlas más prácticas para quienes llegan a ese mundo no para aprender una serie de reglas operativas que le sirvan para resolver un examen y pasar a otra cosa sino para su trabajo y su vida. Es decir, para asignar probabilidades a eventos. Y eso me ha llevado a hojear uno de los libros más famosos en los últimos tiempos dedicados al asunto: Superforecasting.

Un marco conceptual para repensar los presuntos sesgos del AI, ML, etc.

He escrito en alguna ocasión sobre el tema: véanse (algunas de) las entradas con etiquetas sesgo, discriminación o justicia. Recientemente he releído un artículo de Joseph Heath, Redefining racism (adivinad por qué) que mutatis mutandis, ofrece un marco conceptual muy adecuado para repensar el asunto (pista: todo lo que se refiere al llamado racismo institucional). Nota: si este fuese un blog al uso y yo tuviese más tiempo del que dispongo, resumiría ese artículo induciéndoos a privaros del placer de leer el original y luego desarrollaría el paralelismo ofendiendo a la inteligencia de los lectores que más me importan.

"Algoritmos" y acatarrantes definiciones de "justicia"

Lee Justicia: los límites de la inteligencia artificial… y humana y cuando acabes, te propongo un pequeño experimento probabilístico. Por referencia, reproduzco aquí los criterios de justicia del artículo que glosa el que enlazo: Centrémonos en (B), sabiendo que, por simetría, lo que cuento se aplica también a (C). Supongamos que tenemos dos grupos, cada uno de ellos de 1 n <- 1000000 personas para estar en las asíntotas que aman los frecuentistas.

¿Pato o conejo? (Y su moraleja)

Supongo que Is it a Duck or a Rabbit? For Google Cloud Vision, it depends how the image is rotated. pic.twitter.com/a30VzjEXVv — Max Woolf (@minimaxir) March 7, 2019 es conocido de todos. Según la orientación de la imagen, la red neuronal correspondiente la categoriza bien como conejo o bien como pato. ¿El motivo? La red está entrenada con una serie de fotos etiquetadas por humanos y en ellas, las figuras en que parecen conejos están en ciertos ángulos (los naturales en fotos de conejos) y en las que aparecen patos, en otros.

Modelos y sesgos (discriminatorios): unas preguntas

A raíz de mi entrada del otro día he tenido una serie de intercambios de ideas. Que han sido infructuosos porque no han dejado medianamente asentadas las respuestas a una serie de preguntas relevantes. Primero, contexto: tenemos un algoritmo que decide sobre personas (p.e., si se les concede hipotecas) usando las fuentes de información habitual. El algoritmo ha sido construido con un único objetivo: ser lo más eficiente (y cometer el mínimo número de errores) posible.

Cuando oigáis que los algoritmos discriminan, acordaos de esto que cuento hoy

Generalmente, cuando construyes uno de esos modelos para clasificar gente entre merecedores de una hipoteca o no; de un descuento o no; de… vamos, lo que hacen cientos de científicos de datos a diario, se utilizan dos tipos de fuentes de datos: individuales y grupales. La información grupal es la que se atribuye a un individuo por el hecho de pertenecer a un sexo, a un grupo de edad, a un código postal, etc.

¿Soy parte del concilábulo heteropatriarcal?

En una de esas comidas navideñas tuve que asistir pasivamente a una conversación en la que se dibujaba una peculiar realidad alternativa: existiría algo así como un conciliábulo (el Márketing) con capacidad de memoria, entendimiento y voluntad propias e interés por implementar una particular agenda de corte heteropatriarcal. Producto de la cual, por ejemplo, las afeitadoras de color rosa para mujeres vendrían a resultar más caras que las azules para hombres, etc.

Mortalidad y tramos de edad gordotes

Cuando se estudia la mortalidad, hay que tener cuidado con los tramos de edad considerados. Véase, por ejemplo, esto, que se resume en un “tenemos que ajustar el incremento de la edad media en la categoría de las personas en el rango de edad comprendido entre los 45 y los 54 años [para evitar meter la pata mucho]”. Sí, incluso trabajando con rangos de edad tan estrechos, hay problemas de heterogeneidad que pueden dar lugar a resultados espurios.

Predecir a los predictores por incordiar

Sirve esta entrada para hacer saber lo fundamental del trabajo de fin de master (TFM en lo que sigue) de Susana Huedo (que busca trabajo y es una chica muy sabida, aplicada y espabilada) en el CIFF. Los TFM que propongo y acabo supervisando jamás tienen vocación de criogénesis anaquélica. A Susana le sugerí un tema muy punk y con recorrido: [tratar de] predecir a los predictores. Fundamentalmente, para joder.

¿Quién demonios lee el segundo párrafo?

Me llega por Twitter lo que lleva por título Más suicidios y peor salud mental por la crisis en España y Grecia. Hay una escena de la película Primera Plana resumida aquí pero que, por abreviar, reproduzco con la ayuda de Control-C y Control-V: Walter Matthau, director del Examiner, relee por encima del hombro de su redactor jefe, Jack Lemmond, mientras este redacta la gran exclusiva. “Pero, ¿no citas al Examiner?

Dime qué muestreas y te diré cuál es tu sesgo

El telón de Aquiles del big data es el sesgo. Me gustaría hablar más de ello, pero me agarra de la pluma uno de esos NDAs. Así que hablaré de otra cosa. Si le preguntas a la gente cuántos hermanos son en la familia, el promedio del resultado tenderá a ser superior al número medio de hijos por familia. Esencialmente, porque no estás muestreando familias sino hijos. El tautológico hecho de que las familias con más hijos tengan más hijos hace que estén sobrerrepresentadas en la muestra.