Carlos J. Gil Bellosta

En la cuenta @StartupArchive_ de Twitter se publicó un vídeo de una entrevista a Jeff Bezos y (¿parte?) de su transcripción. Dice, con mi traducción:

Jeff Bezos nos cuenta cómo una vez llamó al servicio de atención al cliente de Amazon en mitad de una reunión para demostrar que una métrica era incorrecta.

[…] Jeff cuenta una historia de los primeros días de Amazon, cuando sus métricas indicaban que los clientes esperaban menos de 60 segundos en obtener una respuesta después de llamar al número de atención al cliente. Sin embargo, las quejas de los clientes parecían indicar lo contrario. Como explica Jeff:

Escribí hace un tiempo sobre las probabilidades subjetivas y cómo Leonard Savage sugería pensar en la probabilidad de un evento como

la [máxima] cantidad que uno debería estar dispuesto a pagar por el derecho a recibir 100 € si el evento finalmente ocurre.

De acuerdo con esa definición, ¿cuál sería la probabilidad de que 2+2 siga siendo 4 dentro de doce meses? Uno estaría tentado a decir que es del 100%, es decir, que pagaría hasta 100 € por el derecho a recibir 100 € en un año si 2+2 es todavía 4 para entonces.

Esta entrada no versa propiamente sobre estadística bayesiana (aunque también) sino sobre el bayesianismo entendido —exageradamente, a veces— como la columna vertebral de la epistemología. De acuerdo con tal visión, solo podemos conocer las cosas —concedido: no todas— con cierto grado de certeza y tanto este conocimiento como la incertidumbre van adaptándose a la información adicional que llega de acuerdo con un criterio: la regla de Bayes.

Pensemos en el ejemplo clásico del lanzamiento de monedas. No sabemos nada a priori sobre la probabilidad $p$ de cara, por lo que nuestro conocimiento sobre el asunto puede modelarse con una beta $B(1,1)$, una distribución uniforme sobre el intervalo $[0,1]$. Conforme observamos lanzamientos, de ser racionales, iremos modificando esa distribución. Si al cabo de $n$ lanzamientos observamos $c$ caras y $n-c$ cruces, nuestro conocimiento sobre $p$ estará recogido en una $B(c+1, n-c+1)$. Esa distribución estará típicamente centrada alrededor del valor real de $p$ y tendrá una dispersión que decrecerá con $n$. (En otra versión, hay un primer conjunto de datos, se obtiene una posteriori y dicha posteriori se convierte en la priori de un análisis ulterior cuando se observa un conjunto de datos adicional).

Si los datos en tratamiento tienen más varianza que los datos en control, ¿deberías sobrerrepresentar alguno de los grupos en el experimento? La respuesta es sí: deberías sobrerrepresentar el grupo de tratamiento.

El principio de la piraña: dado que el mundo observable es razonablemente predecible, una de dos:

o bien no hay demasiados factores grandes independientes operando causalmente,
o bien estos factores grandes interactúan negativamente entre sí de manera que se cancelan mutuamente.

Cita Jessica Hullman un parrafito de un artículo de Cornfield y Tukey (sí, ese Tukey) que traduzco aquí:

De pxR ya he hablado alguna vez. Pueden verse las entradas que le he dedicado aquí.

pxR es un paquete coral de R que promoví, en el que escribí la mayor parte del código y que aún mantengo muy renuentemente. Permite leer y crear ficheros con el formato px que utilizan algunos servicios de estadística pública por el mundo y que antediluviano es el adjetivo que mejor lo describe. Fue creado antes de la popularización de los formatos modernos y no en vano la última de las entradas que le dediqué allá por 2023 se titulaba ¿Dejar morir pxR?

Me he enterado por esto de una noticia que recoge, por ejemplo, Europa Press, y de donde extraigo un párrafo que lo dice casi todo:

El secretario de Estado de Sanidad, Javier Padilla, ha advertido este miércoles que el número de personas que consumen alcohol a diario en la Comunidad de Madrid “casi se ha duplicado” desde el año 2000, mientras que en el conjunto de España aumenta “de forma muy pequeña”, y ha acusado a la presidenta regional…

Cuando comparo valores reales contra estimados/predichos, tengo la costumbre de colocar los valores observados en el eje horizontal y las predicciones en el vertical. Así puedo ver si yerro por exceso o por defecto (con respecto a la línea, típicamente roja, $y = x$). Sin embargo, tanto en este artículo como en esta entrada de blog, se argumenta en favor de lo contrario.

Hay una diferencia sustancial entre el bayesianismo abstracto y el aplicado (o computacional): el primero siempre habla de aprendizaje secuencial y de encadenamiento de posterioris: la posteriori de un primer estudio con unos datos parciales se convierte automáticamente en la priori de uno posterior con un conjunto de datos adicional. En la versión práctica, solo es posible en ciertos casos concretos (p.e., cuando hay distribuciones conjugadas) pero no en general. En general uno obtiene una descripción de la posteriori en términos de una serie de muestras que no hay forma de utilizar después como priori. Sin embargo, pasan cosas como esta o esta

Por motivos estrictamente laborales, he pasado estos días algunas horas navegando por la llamada dark web. El motivo es fácil de explicar:

Trabajo para una empresa que tiene un problema creciente de pérdidas por fraude digital (¿cuál no?).
Nuestro equipo está encargado, entre otras cosas, de minimizar su impacto detectándolo lo antes posible.
Como somos todos gente honrada y sin malicia, vamos un poco a ciegas: ¿cuáles son realmente los patrones que buscamos?

Hay dos maneras de afrontar el problema:

El prompt injecting es una técnica para robar información a un agente. Si un agente tiene, por ejemplo, acceso al correo electrónico, se le puede enviar un mensaje dándole instrucciones que alteren su comportamiento. Es un problema bien conocido de los agentes y ahora en Defeating Prompt Injections by Design se describe una solución basada en dos agentes, uno de los cuales tiene como función supervisar las acciones del otro.

Como no puede ser de otra manera, el MCP plantea grandes problemas de seguridad.

Creo que en alguna ocasión he hablado de mi infraestructura para industrializar mi proceso de lectura. A grandes rasgos, funcionaba así:

Usaba Pocket como repositorio central. Una de las ventajas que ofrecía era que podía ser utilizado vía API.
Sigo unos cuantos blogs e importaba los RSS a Pocket en un proceso diario que corre via cron en mi servidor doméstico.
Además, en Pocket almacenaba artículos interesantes que encontraba mientras navegaba.
Un proceso horario reclasificaba esos enlaces en distintas etiquetas específicas para:
- Entradas que leer más despacio (p.e, el fin de semana, frecuentemente con el apoyo de NotebookLM).
- Entradas que archivar en Obsidian.
- Entradas que me inspiran a escribir sobre asuntos en el blog.
- Etc.
Una de las etiquetas, resumir se asociaba a enlaces cuyos contenidos pasaba luego por un LLM para obtener un resumen del texto. La entrada en cuestión, se reetiquetaba como resumida y, una vez leído el resumen, consideraba las distintas opciones: borrarla, reetiquetarla de nuevo, etc.

Todo el proceso ocurre con un alto grado de automatización:

"Cuando los datos y las anécdotas no concuerdan, las anécdotas suelen ser correctas"

La probabilidad de que 2+2 siga siendo 4 dentro de 12 meses es algo menor del 100%

La gestión de la deriva como problema fundamental del bayesianismo

Gráficas de sesgo vs gráficas de calibración y algunos notas más sobre estadística

¿Reemplaza pxmake a pxR? Espero que sí (y, además, que ninguno de los dos haga falta pronto)

¿Se ha duplicado realmente el número de personas que consumen alcohol a diario en la provincia de Madrid?

Estadística vs aprendizaje automático y algunos asuntos más

Un paseo por la Dark Web que os haría llorar a los más

LLMs para la predicción de series temporales y algunos asuntos más

Migración de Pocket a Wallabag