Una justificación desapasionada del promedio como mecanismo para agregar predicciones

Existe incertidumbre sobre el resultado, 0 o 1, de un evento de interés $X$. Se convoca a $n$ expertos que hacen predicciones $p_1, \dots, p_n$ sobre dicho evento, i.e., el experto $i$ considera que $P(X = 1) = p_i$. Entonces, ¿cómo se pueden combinar las predicciones $p_i$ para obtener una predicción conjunta $p$?

Uno pensaría que el promedio, $p = \frac{1}{n} \sum_i p_i$, es una opción razonable. En la literatura se discuten también generalizaciones del tipo $p = \sum_i w_i p_i$ para pesos $w_i$ que suman 1. Sin embargo, en sitios como este se sugiere usar la media geométrica de los odds (o, equivalentemente, la aritmética de los log ods), es decir, calcular los log odds,

Una serie de asuntos sobre encuestas, mercados de predicciones y su intersección

Este es un largo artículo largo de Andrew Gelman sobre lo que fue el gran pequeño tema de hace unas semanas: ¿funciona eso de preguntar en las encuestas sobre lo que opinan los vecinos o familiares de los encuestados? ¿Qué nos dice la evidencia?

Escribí una vez (aquí) sobre las cuestiones éticas y económicas que subyacen en los mercados de predicciones. El resumen es más o menos que generan grandes externalidades positivas pero que los agentes no pueden internalizar suficiente valor como para que operen por sí mismos, es decir, sin incentivos externos. Pero el hecho de que se intenten manipular (como aquí) es, en el fondo, una buena noticia: no son irrelevantes.

Bajo hipótesis razonables, hacen falta 16 veces más observaciones para estimar una interacción que para estimar un efecto principal

Uno de los grandes temas de estas páginas es que el efecto principal de un tratamiento es un indicador demasiado burdo. Casi siempre queremos ver ese efecto propiamente desglosado: a unos sujetos les afecta más, a otro menos.

Para lograr ese objetivo, hay que estudiar cómo interactúa el efecto con otras variables (p.e., sexo). Desafortunadamente, cuanto mayor es el grado de desglose, más incertidumbre existe sobre las estimaciones; a la inversa, para lograr una mayor precisión en las estimaciones, hace falta incrementar el tamaño muestral. Pero, ¿cuánto?

Unas cuantas notas sobre filosofía de la ciencia

¿Qué fue antes, la ciencia o la ingeniería?

Tengo tres entradas al respecto. La primera arranca con una serie de comentarios sobre cómo el aprendizaje automático parece más ingeniería que ciencia propiamente dicha y cómo se suma a la lista de ejemplos que parecen demostrar cómo la ingeniería precedió a la ciencia (tesis que el autor considera una priori fuerte al entrar a discutir cada caso particular).

Las otras son ilustraciones concretas de la tensión entre ciencia e ingeniería. Una de ellas discute nada menos que la historia de los primeros remedios para el escorbuto y la segunda, muy apropiadamente, tiene el nombre de What learning by looking looks like.

Sobre el modelo beta-binomial con "deriva"

Planteamiento del problema

El modelo beta-binomial es precisamente el que estudió el reverendo Bayes. Es tan viejo como la estadística bayesiana: tienes una moneda, la tiras repetidamente y vas afinando progresivamente la estimación de la probabilidad de cara asociada a tal moneda.

Una variante habitual del problema anterior ocurre cuando hay una deriva (uso deriva como traducción de shift) en la probabilidad de la cara de la moneda: puedes estar tratando de vender productos en Amazon y estimar el número de ventas por impresión; es tentador usar el modelo beta-binomial, pero hay un problema: ¿los datos de hace tres años, siguen siendo relevantes?; ¿habrán cambiado en tanto las probabilidades?; en tal caso, ¿qué se puede hacer?

Seis asuntos sobre modelización estadística, incluyendo un problema que no parece del todo trivial

Sobre catboost

Todavía no he usado catboost en ningún proyecto serio, aunque tiene la pinta de ser la evolución más sofisticada de todos las variantes existentes del boosting. Ya escribí al respecto aquí y hoy traigo dos enlaces adicionales de José Luis Cañadas, un usuario muy entusiasta. Una sobre el tratamiento de las variables categóricas y otro sobre la regresión por cuantiles.

Ajuste bayesiano de un modelo con censura

Lo presenta el maestro Juan Orduz aquí que, como todos, no para mientes al hecho no totalmente evidente de que la verosimilitud de una densidad mixta (continua y discreta a un tiempo) es la que se postula que es (véase cómo arranca la sección Censored Gamma Model).

Unas cuantas herramientas tecnológicas

Modelos directamente en base de datos

Sería muy cómodo poder correr modelos estadísticos directamente en la base de datos, sin tener que realizar costosas y problemáticas extracciones de datos. Rebuscando, he encontrado entradas de hace catorce años sobre el asunto en estas páginas (esta), de la época en que a eso se lo llamaba in-database analytics y se suponía que era el motivo de la entonces esperada fusión de SAS y Teradata.

LLMs: ajedrez, poesía, "ciencia normal", "prompts" y "RAG"

Poesía

Hace poco se publicó un artículo en el que se estudiaban los resultados de un estudio ciego en el que a una serie de sujetos se les presentaban poemas escritos sea por humanos o por LLMs y se les preguntaba su opinión al respecto. No he leído el artículo, pero aquí están las opiniones no enteramente coincidentes al respecto de Tyler Cowen y de Jessica Hullman.

Ajedrez

Uno de los resultados más sorprendentes del prehistórico GPT-2 es que había aprendido a jugar al ajedrez sin que nadie le hubiese enseñado explícitamente. Cuatro años después, Dynomight ha retomado el asunto y ha escrito esto y esto.

Sobre la verosimilitud de distribuciones "compuestas"

Si tenemos una distribución continua (que depende de un parámetro $\alpha$) $f_\alpha$ y una muestra blablablá $x_1, \dots, x_n$, la verosimilitud asociada es

$$\prod_{i = 1}^n f_\alpha(x_i).$$

Si tenemos una distribución discreta (que depende de un parámetro $\beta$) $p_\beta$ y una muestra blablablá $y_1, \dots, y_m$, la verosimilitud asociada es

$$\prod_{i = 1}^m p_\beta(y_i).$$

Pero si tenemos una mezcla de distribuciones, una continua $f_\alpha$ y una discreta $p_\beta$ y una muestra blablablá $x_1, \dots, x_n, y_1, \dots, y_m$, ¿la verosimilitud asociada sigue siendo

LLMs: algunas herramientas (potencialmente) útiles

Artefactos de Claude

Uno de los aplicaciones derivadas de los LLMs que más satisfacciones me están dando son los artefactos de Claude (véase, por ejemplo, esto).

Es complicado en todo caso ejecutar aplicaciones web generadas por Claude (vía artefactos) por defecto sin haber configurado previamente un entorno en node con las dependencias adecuadas. Los artefactos están pensados para, por defecto, ser alojados por Claude directamente. Si uno quiere bajar el código y correrlos en su propia máquina, tiene que hacerlo en un entorno en el que existan las dependencias correspondientes.

La paradoja (de Simpson) detrás de ciertos argumentos en pro de una subida generalizada de salarios

Trae El Confidencial un artículo de Javier Jorrín —según Jesús Fernández-Villaverde, el mejor periodista económico ahora mismo en España—, titulado La mejora de la productividad permitirá a las empresas prolongar la subida de salarios. El artículo se resume en tres enunciados que, así, en frío, según se verá, son contradictorios:

  1. Ha aumentado la productividad (PIB por hora trabajadda) en España.
  2. Eso da margen para que suban los salarios.
  3. El incremento de la productividad se debe a que ganan peso los sectores económicos más productivos.

La problemática relación entre (1) y (2) se la dejo a los economistas. Se pueden elaborar experimentos mentales en los que (2) se sigue de (1) y otros en los que no. Evaluar su pertinencia no es materia de estas páginas.

k-means "2.0" y cuatro asuntos más

  1. Existe un blog muy raro y entretenido, Weierd Data Science, en el que hace años publicaron una serie de artículos realizando un análisis estadístico no enteramente trivial del manuscrito Voynich. Esta es la última entrega de la serie de cuatro entradas, que ilustra y entretiene más y mejor que esas actividades que alguien ha decidido que formen parte del canon cultural.
  2. Son estos tiempos de llave inglesa: una única herramienta para apretar y aflojar cualquier tipo de tuerca. Me refiero, obviamente, al deep learning y las redes neuronales. Sin embargo, fuera del foco mediático, la gente sigue construyendo y ajustando modelos con formas funcionales fuertes, como el modelo de Wiener en sicología.
  3. k-means 2.0
  4. He debido de comentar y enlazar el artículo Decision-making under uncertainty: heuristics vs models una docena de veces. Pero siempre encuentro un motivo nuevo para volver a él.
  5. En The likelihood principle in model check and model evaluation, se discute un asunto que no llega, pienso, a la categoría de problema: dos modelos generativos distintos pueden compartir verosimilitud.

¿A quién crees que van a votar tus vecinos?

La historia, telegráficamente, es así:

  1. Hubo unas elecciones hace unos pocos días en EEUU.
  2. Existieron las concomintantes encuestas, predicciones y… mercados de apuestas.
  3. De entre los últimos, Polymarket se destacó por asignar unas probabilidades de victoria a Trump muy superiores a las del bendito consenso.
  4. Hubo gente muy sabida que criticó mucho a Polymarket. El argumento principal era:
    1. En Polymarket se juega con dinero.
    2. La gente rica tiende a tener más querencia por Trump.
    3. La gente rica tiende a tener más querencia por los mercados, las apuestas, etc.
    4. La gente rica que apoya a Trump está sobrerrepresentada entre los usuarios de Polymarket —a diferencia de lo que ocurre, por ejemplo, en Metaculus— y eso sesga el mercado.
  5. Se supo que un solo inversor había realizado pujas muy elevadas en Polymarket.
  6. Incluso se especuló si ese inversor era realmente Elon Musk (y que intervenía en él para influir maliciosamente en el proceso electoral).
  7. Este inversor ha acabado ganando bastante dinero (unas cuantas decenas de millones de euros) con sus apuestas.

Se ha sabido, no obstante, que el inversor en cuestión es un tal Théo, de Francia.