Priori

Reflexiones bayesianas al hilo del manido: "Independientemente de su ideología, los economistas suelen estar de acuerdo en que..."

Podría hacerse un ránking de disciplinas académicas según el grado de acuerdo entre quienes las cultivan. Supongo que lo lideraríamos los matemáticos. Salvo los constructivistas y esos raritos que dan por malo el axioma de elección, no contamos con familias heterodoxas. En el otro extremo, aventuro, se ubicarían los que hacen crítica literaria y políticas. Pero, seguro, dentro de las ciencias humanas, los economistas quedarían en bastante buen lugar.

Así que si aceptáis mis premisas (postmisas: vienen después), tendréis que conceder también que este fenómeno es corolario del teorema de von Mises:

Ajustad vuestras prioris: la mayoría de los "programas sociales" carecen de efectos positivos

Muy frecuentemente, economistas, sociólogos, etc. publican artículos en los que se recoge la evaluación de algún tipo de programa social: políticas activas de empleo, cheques de nosequé, etc. Para ser publicados, como siempre, estos estudios tienen que tener las tres propiedades habituales:

  • No ser obvios.
  • Ser interesantes.
  • No ser manifiestamente falsos (es decir, que de serlo, no se note demasiado, posiblemente, haciendo uso de tahuromaquia estadística).

Esos resultados son datos observacionales que tenemos que componer con una priori para corregir el entusiasmo de los investigadores y ese amor tan cegador que suelen acabar desarrollando por el objeto de sus pesquisas. Pero, ¿cuál usar?

Militancia y datos

Allá por el 2007 publicó The Independent una portada en que se retractaba. El diario había sido un histórico defensor de la legalización de la marihuana. Ese día hizo público su cambio de postura. Al parecer, motivada por las evidencias sobre los efectos sobre la salud mental.

Este fin de semana he asistido a una serie de conferencias. En una de ellas participaba el representante de una organización que:

  • Adoptaba de partida una posición militante, de parte, en cierto asunto de interés público.
  • Se definía como data driven, evidence driven, etc.

La pregunta obvia y que no tuve ocasión de plantear (por eso la traigo aquí) es la siguiente: si los datos y la evidencia se obstinaran en subrayar la bondad de la posición contraria a la que actualmente mantienen, ¿cuál de sus dos principios abandonarían primero?

Estereotipos y estadística

El porcentaje de mosquitos que pueden transmitir enfermedades es pequeño, muy pequeño. Sin embargo, decimos mosquitos transmiten enfermedades sin empacho.

Un porcentaje mucho mayor de los libros tienen tapas blandas. Sin embargo, no decimos que los libros tienen tapas blandas.

Si evaluamos juicios similares con sujetos que son grupos sociales, religiones, razas, etc. las cosas se tornan la mar de entretenidas.

Yo lo dejo aquí, pero podéis seguir leyendo aquí o aquí.

Sin datos solo eres alguien con una priori

Que es una manera de matizar

sin_datos_deming

Porque, recordemos,

  • no solo con datos tomamos decisiones informadas: las prioris (experiencia cuantificada) tienen su importancia
  • no podemos obtener datos que justifiquen todas, todas, todas las decisiones.

Los tres contraargumentos habituales

Hago pública por su interés (parte de) una respuesta de Ramón Díaz Uriarte a un correo mío en el que yo sugería

que una vez que sabes especificar un modelo probabilístico para unos datos, p.e.,

  • para la regresión lineal, y ~ N(a0 + a1 x1 +..., sigma)),
  • para el test de Student, y0 ~ N(mu, sigma); y1 ~ N(mu + delta, sigma),
  • etc. no hace falta saber qué es lm, ni el test de Student, ni nada. Cero teoría; sobre todo, de teoría tipo recetario. Se especifica el modelo (con una determinada sintaxis), se deja correr la cosa y a interpretar.

Su respuesta:

Construcción de prioris informativas a la de Finetti

Un banco tiene clientes. Los clientes usan la tarjeta de débito. La pueden usar de dos maneras: en cajero o para pagar (por productos y servicios). De cada cliente se tiene una secuencia de transacciones, etiquetadas como 1 o 0 según la use en cajero o no.

Para cada cliente, la secuencia de transacciones (más o menos larga) puede considerarse una secuencia intercambiable y, de acuerdo con el teorema de representación de de Finetti,

Prioris muy informativas y vagamente informativas: un ejemplo

Mi búsqueda de ejemplos de aplicaciones con prioris informativas me ha conducido a Physiological pharmacokinetic analysis using population modeling and informative prior distributions, un artículo en el que se plantea un modelo jerárquico con dos tipos de distribuciones a priori:

Distribuciones muy informativas. Por ejemplo, el parámetro que representa la proporción del peso del hígado en un adulto, alrededor del 3.3% en promedio, que se modela con una distribución centrada en ese valor y una desviación estándar baja.

Prioris, ¿subjetivas?

Dentro de unos días voy a hablar de estadística bayesiana en Machine Learning Spain. Plantearé una distribución a priori muy poco informativa:

alfa ~ gamma(10, 1);
beta ~ gamma(10, 1);

Me estoy preparando sicológicamente para que alguien me dé guerrita con lo de la subjetividad de las distribuciones a priori. Si tal es el caso, replicaré lo que sigue.

Hace unos días quise replicar el análisis. Pero la URL de la que bajo los datos dejó de contener los de la liga del año anterior y cargó los correspondientes al inicio (¿dos jornadas? ¿tres?) de la actual. ¡Apenas había datos!