Priori

Una "app" para la selección de parámetros de prioris informativas

Un ejemplo de caso de uso: uno de los parámetros de tu modelo está relacionado con la duración de algo. El cliente, que tiene 20 años de experiencia en la cosa te dice: el tiempo está típicamente comprendido entre uno y siete días. Por lo tanto, decides introducir en tu modelo una priori informativa gamma que con una alta probabilidad asigne valores en el intervalo $[1, 7]$. Pero, ¿cuáles son sus parámetros?

¿Qué es "seguro"?

Esta entrada es un resumen junto con una traducción libre de un capitulito excelente del libro Probability Theory, The Logic of Science de E.T. Jaynes que lleva por título What is safe?.

Uno de los principales mensajes prácticos de este trabajo [el libro] es el [de subrayar] el gran efecto de la información a priori en las conclusiones que uno debería extraer de un conjunto de datos. Actualmente, asuntos muy discutidos, como los riesgos medioambientales o la toxicidad de un aditivo nutricional, no pueden ser juzgados racionalmente mirando únicamente a los datos e ignorando la información a priori que los científicos tienen sobre el fenómeno.

Mis prioris sobre la vacuna: ¿por qué estarían tan desviadas?

I.

De todas las explicaciones sobre cómo funciona la percepción —desde la más inmediata, la de los sentidos (“ahí hay una vaca”), hasta la que nos permite transitar las complejidades físicas y conceptuales del mundo moderno— la que he encontrado más convincente hasta el sol de hoy es una construida alrededor de un símil con el proceso actualización bayesiano de las probabilidades.

Según ella, por un lado tenemos nuestra propia cosmovisión, lo que esperamos ver antes de abrir los ojos a la realidad, nuestra priori (p.e., las llaves están en el llavero). Los sentidos (o las lecturas, o…) aportan información (no mucha, apenas unos KB) y el cerebro opera una suerte de actualización de probabilidades —aquí no tengo claro si los defensores de esta teoría recurren a Bayes de forma alegórica o si piensan que el cálculo es exactamente bayesiano; supongo que habrá de todo— y llega a un consenso sobre lo que ocurre realmente.

Más sobre el artículo raro, raro, raro

No he podido evitar darle vueltas al artículo que comenté el otro día aquí, Bayesian Estimation with Informative Priors is Indistinguishable from Data Falsification, de la manera más caritativa posible. En particular, me he preguntado:

  • ¿Por qué se escribió (en lugar de no haberse escrito)?
  • ¿Por qué se escribió en esos términos (en lugar de en otros)?

Obviamente, el artículo no enseña nada desde el punto de vista técnico. Desde el metodológico, tampoco: recuerda más que a otra cosa, a esos físicos que muchos años después aún despotricaban contra la teoría de la relatividad.

Un artículo muy raro, raro, raro

Hoy voy a comentar un artículo muy raro que me ha llegado recientemente y que se titula nada menos que Bayesian Estimation with Informative Priors is Indistinguishable from Data Falsification.

Argumenta el artículo alrededor de lo siguiente (que creo que ya sabemos todos: son ejercicios matemáticos básicos de un curso introductorio de probabilidad):

  • Que la inferencia bayesiana con prioris planas (degeneradas, de ser necesario) es equivalente a la inferencia frecuentista.
  • Que para tres ejemplos concretos (binomial, Poisson y normal), de usarse prioris a través de las distribuciones conjugadas, el resultado de la inferencia bayesiana es equivalente a haber añadido datos (problemas de redondeo aparte) a los originales.

Luego añade unos experimentos numéricos para dejar constancia de que no se ha equivocado en las cuentas y mostrar que, efectivamente, sustituyendo las letras por números y operando se obtienen los resultados que anuncian las matemáticas con su árido simbolismo.

¿Criptobayesianismo?

Titulo así a cuenta de un proceso mental de varios saltos producidos a partir de la lectura del muy recomendable Five ways to ensure that models serve society: a manifesto. En particular del parrafito

Quantification can backfire. Excessive regard for producing numbers can push a discipline away from being roughly right towards being precisely wrong. Undiscriminating use of statistical tests can substitute for sound judgement. By helping to make risky financial products seem safe, models contributed to derailing the global economy in 2007–08.

Un recíproco para el teorema de Bernstein–von Mises

Aquí se describe una suerte de recíproco para el teorema de Bernstein–von Mises. Aquí se resume de esta manera:

The celebrated Aumann’s Agreement Theorem shows that two rational agents with the same priors on an event who make different observations will always converge on the same posteriors after some civilized conversation over tea.

En resumen:

  • B-vM: frente a la misma evidencia, observadores con prioris distintas tienen posteriores similares.
  • Aumann: frente a evidencias disímiles, observadores con las mismas prioris pueden acordar posterioris similares.

Un resultado contraintuitivo

[Esta entrada recoge la pregunta y la duda que motivó una conversación con Javier Nogales en Twitter hace unos días.]

Citaba (él) un resultado de Theobald de 1974 (¿tanto lleva ridge entre nosotros? ¡habría jurado que menos!) que viene a decir que siempre existe un peso $latex \lambda$ para el que ridge es mejor que OLS.

Ves el álgebra y piensas: verdad será.

Pero te fías de tu propia intuición y piensas: ¡vaya un resultado contraintuitivo si no contradictorio! Porque:

ABC (II)

Más sobre lo de ayer. O más bien, una justificación por analogía.

Con monedas.

Tiras una moneda 100 veces y obtienes 60 caras. Tienes una priori $latex B(a,b)$ (beta). Tomas una muestra de valores $latex p_i$ con esa distribución y para cada una de ellas repites el experimento, es decir, obtienes lo que en R se expresaría de la forma

rbinom(1, 100, p[i])

Si te quedas los valores $p_i$ tales que esa simulación es 60, enhorabuena, tienes una muestra de la distribución a posteriori.

Sociología normativa: el estudio de cuáles deberían ser las causas de los problemas sociales

Muy útil el concepto de sociología normativa, el estudio de cuáles deberían ser las causas de los problemas. Por supuesto, deberían ser de acuerdo con preconcepciones que uno trae de casa, totalmente inasequibles al dato.

Un ejemplo:

Los narcopisos son propiedad de bancos y fondos buitre, quienes no les desalojan ¿Por qué? Porque los narcopisos se utilizan para estigmatizar al movimiento de vivienda que recupera pisos para familias desahuciadas, que son propiedad de esos mismos bancos https://t.co/rcTUoqry1F

Posterioris informativas (o más bien, cuando te informan de cuál es la posteriori)

El otro día, en la ronda de preguntas tras mi charla en la Universidad de Zaragoza, después de mi enconada defensa de las prioris informativas, alguien apostilló muy agudamente: si tenemos prioris muy informativas, ¿para qué queremos datos?

Eso, ¿para qué queremos datos?

El otro día me lo explicó otro amigo en las siguientes líneas que reproduzco con las inexactitudes achacables a memoria anaidética:

En una empresa, un consejero tiene un proyecto, una idea. La tiene que defender frente al CEO y el resto del consejo. Ahí entra la ciencia de datos: alguien presenta un documento con tablas y gráficos que le dan un sostén basado en datos [a aquellas ideas que son previas a los datos].

Prioris informativas: un ejemplo

Imagina que tienes que generar (reitero: generar) datos compatibles con el siguiente modelo:

  • Tienes n sujetos a los que se proporciona un remedio para dormir en distintas dosis (conocidas) en distintos días.
  • El número adicional de horas que duerme cada sujeto es lineal con una pendiente que depende de la dosis (una serie de dosis fijas).
  • Esa recta tiene un término independiente (el número de horas que duerme el sujeto con una dosis igual a cero del remedio).

Argumento que para generar los términos independientes usarías algo así como una normal de media igual a 8 horas. Seguro que usarías alguna otra distribución razonable para las pendientes (p.e., que prohibiese que con dosis pequeñas se durmiese, p.e., 80 horas).