Cortos

Aplicaciones

Daisy, una “abuelita IA” para marear a los estafadores. Se trata de una herramienta creada por O2 en el RU que atiende llamadas telefónicas de timadores y entabla conversaciones con ellos con el objetivo último de hacerles perder tiempo. Van a ser entretenidos los falsos positivos cuando, sin duda, los haya.

Prompts

Por un lado, internet está plagada de tutoriales y trucos para generar mejores prompts. Por otro, se advierte una brecha cada vez más ancha entre quienes saben utilizar los LLMs con cierta soltura y los que no. Uno de los problemas que plantean los LLMs es que cada cual, por el momento, está prácticamente solo a la hora de diseñar su propio arsenal de herramientas construidas sobre los LLMs que resulten útiles para su trabajo concreto. Por eso y a pesar de la objeción que planteo arriba, me atrevo a mostrar, como ejemplo de buen uso de estas tecnologías lo que se cuenta en 5 Mega ChatGPT Prompts that I Use Everyday to Save 4+ Hours.

Predicción conforme

Hace un año largo dejé unas breves impresiones sobre la llamada predicción conforme en el blog. Hoy traigo un par de artículos sobre el tema de gente que ha estado pensando sobre el asunto más que yo.

Conformal prediction estilo compadre, que implementa la técnica cuidadosamente en R para desmitificarla y que todo el mundo tenga claro de qué se está hablando realmente.
When do we expect conformal prediction sets to be helpful?, con una crítica a la técnica en cuestión similar a la que le hice yo.

Gráficos

Tres enlaces interesantes sobre gráficos. Uno, sobre la visualización y animación de las series de Fourier; otro sobre la regularización en mapas usando MRF y, finalmente, un juego en el que hay que adivinar a qué serie estadística corresponde el gráfico sin etiquetas que se propone.

Este es un largo artículo largo de Andrew Gelman sobre lo que fue el gran pequeño tema de hace unas semanas: ¿funciona eso de preguntar en las encuestas sobre lo que opinan los vecinos o familiares de los encuestados? ¿Qué nos dice la evidencia?

Escribí una vez (aquí) sobre las cuestiones éticas y económicas que subyacen en los mercados de predicciones. El resumen es más o menos que generan grandes externalidades positivas pero que los agentes no pueden internalizar suficiente valor como para que operen por sí mismos, es decir, sin incentivos externos. Pero el hecho de que se intenten manipular (como aquí) es, en el fondo, una buena noticia: no son irrelevantes.

¿Qué fue antes, la ciencia o la ingeniería?

Tengo tres entradas al respecto. La primera arranca con una serie de comentarios sobre cómo el aprendizaje automático parece más ingeniería que ciencia propiamente dicha y cómo se suma a la lista de ejemplos que parecen demostrar cómo la ingeniería precedió a la ciencia (tesis que el autor considera una priori fuerte al entrar a discutir cada caso particular).

Las otras son ilustraciones concretas de la tensión entre ciencia e ingeniería. Una de ellas discute nada menos que la historia de los primeros remedios para el escorbuto y la segunda, muy apropiadamente, tiene el nombre de What learning by looking looks like.

Sobre catboost

Todavía no he usado catboost en ningún proyecto serio, aunque tiene la pinta de ser la evolución más sofisticada de todos las variantes existentes del boosting. Ya escribí al respecto aquí y hoy traigo dos enlaces adicionales de José Luis Cañadas, un usuario muy entusiasta. Una sobre el tratamiento de las variables categóricas y otro sobre la regresión por cuantiles.

Ajuste bayesiano de un modelo con censura

Lo presenta el maestro Juan Orduz aquí que, como todos, no para mientes al hecho no totalmente evidente de que la verosimilitud de una densidad mixta (continua y discreta a un tiempo) es la que se postula que es (véase cómo arranca la sección Censored Gamma Model).

Modelos directamente en base de datos

Sería muy cómodo poder correr modelos estadísticos directamente en la base de datos, sin tener que realizar costosas y problemáticas extracciones de datos. Rebuscando, he encontrado entradas de hace catorce años sobre el asunto en estas páginas (esta), de la época en que a eso se lo llamaba in-database analytics y se suponía que era el motivo de la entonces esperada fusión de SAS y Teradata.

Poesía

Hace poco se publicó un artículo en el que se estudiaban los resultados de un estudio ciego en el que a una serie de sujetos se les presentaban poemas escritos sea por humanos o por LLMs y se les preguntaba su opinión al respecto. No he leído el artículo, pero aquí están las opiniones no enteramente coincidentes al respecto de Tyler Cowen y de Jessica Hullman.

Ajedrez

Uno de los resultados más sorprendentes del prehistórico GPT-2 es que había aprendido a jugar al ajedrez sin que nadie le hubiese enseñado explícitamente. Cuatro años después, Dynomight ha retomado el asunto y ha escrito esto y esto.

Artefactos de Claude

Uno de los aplicaciones derivadas de los LLMs que más satisfacciones me están dando son los artefactos de Claude (véase, por ejemplo, esto).

Es complicado en todo caso ejecutar aplicaciones web generadas por Claude (vía artefactos) por defecto sin haber configurado previamente un entorno en node con las dependencias adecuadas. Los artefactos están pensados para, por defecto, ser alojados por Claude directamente. Si uno quiere bajar el código y correrlos en su propia máquina, tiene que hacerlo en un entorno en el que existan las dependencias correspondientes.

Existe un blog muy raro y entretenido, Weierd Data Science, en el que hace años publicaron una serie de artículos realizando un análisis estadístico no enteramente trivial del manuscrito Voynich. Esta es la última entrega de la serie de cuatro entradas, que ilustra y entretiene más y mejor que esas actividades que alguien ha decidido que formen parte del canon cultural.
Son estos tiempos de llave inglesa: una única herramienta para apretar y aflojar cualquier tipo de tuerca. Me refiero, obviamente, al deep learning y las redes neuronales. Sin embargo, fuera del foco mediático, la gente sigue construyendo y ajustando modelos con formas funcionales fuertes, como el modelo de Wiener en sicología.
k-means 2.0
He debido de comentar y enlazar el artículo Decision-making under uncertainty: heuristics vs models una docena de veces. Pero siempre encuentro un motivo nuevo para volver a él.
En The likelihood principle in model check and model evaluation, se discute un asunto que no llega, pienso, a la categoría de problema: dos modelos generativos distintos pueden compartir verosimilitud.

Ahora se pueden correr Stan en el navegador (vía WebAssembly) aquí.
En este artículo relacionado se preguntan sobre la problemática relación entre MCMC y las GPUs. La respuesta es, esencialmente, que no: el MCMC es iterativo y no se presta al paradigma SIMD (single instruction, multiple data). Los únicos casos en los que he visto alguna ganancia son esos —rarísimos— en los que el modelo involucra algún tipo de red neuronal que sí que puede aprovechar el paralelismo.
En este artículo, John D. Cook se suma los críticos del BMI —que no es novedad— y sugiere reemplazarlo —esto sí— por algún tipo de índice de redondez (del cuerpo del sujeto).
Un problema de los LEFTs es que la volatilidad diaria socava gravemente su rentabilidad. Para evitar ese problema, se han lanzado LEFTs que cierran semanal o mensualmente.
Una recomendación habitual es evitar la sobreprecisión en los números publicados (p.e., $p = 0.0421942). Sin embargo, en Please, show lots of digits argumenta en contra: esos números no redondeados aportan información adicional que puede permitir realizar ingeniería inversa y revelar cifras y procedimientos no explícitamente mostrados en los artículos.

Cortos

LLMs: ModernBERT y algunos asuntos más

Aplicaciones

Prompts

Predicción conforme, visualización y otros comentarios breves

Predicción conforme

Gráficos

Una serie de asuntos sobre encuestas, mercados de predicciones y su intersección

Unas cuantas notas sobre filosofía de la ciencia

¿Qué fue antes, la ciencia o la ingeniería?

Seis asuntos sobre modelización estadística, incluyendo un problema que no parece del todo trivial

Sobre catboost

Ajuste bayesiano de un modelo con censura

Unas cuantas herramientas tecnológicas

Modelos directamente en base de datos

LLMs: ajedrez, poesía, "ciencia normal", "prompts" y "RAG"

Poesía

Ajedrez

LLMs: algunas herramientas (potencialmente) útiles

Artefactos de Claude

k-means "2.0" y cuatro asuntos más

Un argumento en contra del redondeo y cuatro breves asuntos más