Teoría De La Decisión

Clasificación vs predicción

Aquí se recomienda, con muy buen criterio, no realizar clasificación pura, i.e., asignando etiquetas 0-1 (en casos binarios), sino proporcionar en la medida de lo posible probabilidades. Y llegado el caso, distribuciones de probabilidades, claro.

La clave es, por supuesto:

The classification rule must be reformulated if costs/utilities or sampling criteria change.

Gestión del riesgo: una perífrasis con hitos aprovechables

Traigo a la consideración de mis lectores Sobre la Sostenibilidad Fiscal de España (II), un artículo de hace un tiempo que es una larga perífrasis alrededor de principios cualitativos muy contrastados sobre la gestión de riesgo (bajo incertidumbre, si se me tolera el pleonasmo). La conclusión es bien sabida pero el camino recorre una serie de hitos que mucho tienen que ver con lo que suelo escribir por aquí. Arranca con una afirmación desconcertante:

Las decisiones son lo primario; la estadística es subsidiaria

En Circiter estamos negociando con unos clientes potenciales acerca de, tal como nos dijeron inicialmente, construir un modelo. Todo bien.

En la última reunión surgió la pregunta (¡qué vergüenza por mi parte no haberla planteado mucho antes!): ¿cómo habría que usarlo para dar soporte al negocio? La discusión subsiguiente dejó claro que habría que cambiar sustancialmente la aproximación al modelo. Por ejemplo:

  • Era tanto o más importante la discriminación intra-sujeto que la entre-sujeto (es decir, importaba más lo que el modelo pudiera decir de los ítems de cada sujeto que las diferencias que pudiera mostrar entre sujetos).
  • La capacidad predictiva del modelo, aun siendo importante, se volvía una medida subsidiaria.
  • Cobraba una particular relevancia el problema del cold-start.

En definitiva, la necesidad de uso cambiaba la estrategia de modelación de arriba a abajo.

Modelos y sesgos (discriminatorios): unas preguntas

A raíz de mi entrada del otro día he tenido una serie de intercambios de ideas. Que han sido infructuosos porque no han dejado medianamente asentadas las respuestas a una serie de preguntas relevantes.

Primero, contexto: tenemos un algoritmo que decide sobre personas (p.e., si se les concede hipotecas) usando las fuentes de información habitual. El algoritmo ha sido construido con un único objetivo: ser lo más eficiente (y cometer el mínimo número de errores) posible. Usa además datos históricos reales. Lo habitual.

Estadística descriptiva y teoría de la decisión

Agradezco mucho el comentario de José Luis a mi entrada/pregunta ¿Existiría algún caso de uso de la estadística que no sea materia prima para la toma de decisiones informadas?. Dice:

¿Y la mera estadística descriptiva que aparece en la investigación científica? Distribución de tallas de especies no conerciales, dinámicas de población, descripciones ecológicas….?

Y creo que es una aportación tan valiosa que merece toda una entrada más que una mera contestación: la pregunta que plantea es tan legítima y como fructífera y fomentadora de debate. Aunque creo, y de aquí la entrada, la objeción no se tiene en pie.

¿Existirá algún caso de uso de la estadística que no sea materia prima para la toma de decisiones informadas?

Estoy escribiendo unas notas muy punk sobre estadística. Desde cero. Hasta la luna. Pero que no se parecen en absoluto a nada de lo que he visto habitualmente escrito sobre la materia. Uno de sus capítulos, el primero, habla en general de la estadística. Abre con

Statistics is a technology concerned with stochastic data generating systems (SDGS) for the purpose of making informed decisions.

y el resto del capítulo desarrolla cada elemento de la frase (sí, qué es una tecnología, etc.). Sin embargo, lo más punk de la frase es el asunto de las decisiones. Porque, en el fondo, ejerciendo de estadístico, apenas se me ha encargado tener que tomarlas. Eran cosa de otros, de los que manejaban el presupuesto.

Probabilismo, probabilorismo y todas esas cosas

La teoría moderna de la decisión, con sus escenarios, recompensas, escenarios, probabilidades y consideraciones de orden sicológico, es cosa del siglo pasado. El principio de máxima verosimilidad también. Si se me apura, incluso, la teoría de la probabilidad propiamente construida.

Esos desarrollos opacan las discusiones previas, tal vez pueriles, al respecto. Pero húbolas.

No sé cómo, he tropezado con algunas. Como las que se discuten en los enlaces, este, este y este, que comparto.

Decisiones bajo incertidumbre (I)

Frecuentemente nos interesan unos efectos (E), tales como:

  • Si un sujeto cumplirá con los términos de una hipoteca.
  • Si un paciente responderá a un tratamiento.
  • Si un adlátere circunstancial en el tren nos regalará una conversación amena.
  • Si un transeúnte podrá o no darnos fuego para prender un cigarro.
  • Si un individuo es o no un criminal.
  • Si un candidato será o no un trabajador productivo en una empresa.
  • Etc.

Son variables aleatorias. En ciertos casos, si no todos, se puede suponer que estos efectos dependen de determinados factores lantentes (L). Y se puede crear una red bayesiana similar a esta:

Decisiones "a ojo de buen cubero"

¿Os acordáis del problema de la carta del otro día? Lo extraje del libro Risk Savvy de G. Gigerenzer.

Uno de los grandes temas del libro es la distinción entre riesgo e incertidumbre. Se decanta por la perspectiva de Knight discutida en el enlace anterior: en situaciones de riesgo, la distribución de probabilidad es conocida (p.e., juegos de azar) y el aparataje probabilístico puede ser aplicado en su entera potencia matemática. En situaciones de incertidumbre, la situación es distinta y de poco o nada sirven los formalismos.

Decisiones basadas en datos: ¿siempre posibles en la práctica?

Me gusta criticar. Bien lo saben quienes me siguen. Pero hoy toca aplaudir un artículo tan raro como valiente. Que no hace sino criticar por mí. Se titula On the Near Impossibility of Measuring the Returns to Advertising. Sus autores, quiero subrayarlo aquí, trabajan en Google y Microsoft.

Los métodos data driven gozan del mayor de los predicamentos. Véase una pequeña muestra extraída de una reciente conversación en Twitter:

data_driven