Posts

En The Drugs Are Taking Hold, David Rosenthal discute la muy problemática rentabilidad futura del negocio de los LLMs. Usa la palabra burbuja doce veces.
Dynomight escribe un tanto apocalípticamente sobre la potencial capacidad de persuasión de los LLMs. No de los actuales sino de los mucho más inteligentes que se supone que llegarán en algún momento.
Este es un hilo en Reddit sobre las actividades más lucrativas para las que los participantes han usado los LLMs. Una de ellas, interactuar con compañías de seguros.
Salió Qwen-Image-Edit y, después, Nano Banana, que todo el mundo dice que es mejor. Aún no he jugado con ninguno de ellos.
Más sobre el impacto medioambiental de los LLMs. Esta vez, el de Gemini.
¿Pueden los LLMs razonar y planificar? Hay indicios que hacen sospechar que, de hacerlo, lo hacen muy precariamente. Un indicio de ello es, por ejemplo, que generan tokens a la misma velocidad independientemente de la complejidad (en el sentido técnico, matemático, del término) de la tarea propuesta, cosa que es matemáticamente imposible.
Dicen que superwhisper es muy bueno para pasar de voz a texto.
En el blog de Andrew Gelman no son muy entusiastas de los LLMs. Sin embargo, acaban de publicar esto. Pronostico aggiornamento a corto plazo.
Simon Willison ha publicado una lista de algunas de las herramientas que ha creado con LLMs. También ha publicado este ejemplo bastante completo de un análisis de datos realizado a golpe de vibe.

Durante el pasado periodo estival, como es tradición, me extrajeron alevosamente de la M-30. Me introdujeron en una caja metálica, me amarraron a una silla y me torturaron durante seis horas, en el transcurso de las cuales, las únicas percepciones del mundo exterior que impactaron mis sentidos fueron calor, ruido, cerros, pinos y dolores en las asentaderas. Como no había otra cosa que hacer y tenía frescos los enunciados de los problemas de la última olimpiada internacional de matemáticas —que, como recordarán los lectores del blog, tuvo cierto impacto mediático por el excelente resultado logrado en ellas por los LLMs más avanzados—, me puse con uno de ellos. Estoy muy pagado de mí mismo por el hecho de que, salvo por un par de cabos sueltos que solo pude rematar cuando conseguí lápiz, papel y silencio, dejé uno de ellos prácticamente resuelto.

Hubo un tiempo en el que para poder señalar que se hablaba ciencia en mano había que citar RCTs. Pero los RCTs acabaron adocenándose y ahora estamos en la era de los metaanálisis. Pero algunos —¿cuántos?—, como nos advierte DataColada, son una especie de albóndiga —tan esférica ella— fabricada con carne picada de muy heterogénea procedencia.

Los siguientes metaanálisis sobre lo del impacto del salario mínimo en nosequé cosas querrán incluir cuarto y mitad de esto. A todo esto: ¿qué llegará antes, la conclusión sobre lo del salario mínimo o las centrales eléctricas de fusión nuclear?

La expresión que da título a la entrada procede de un escrito de Andrew Gelman. Aunque se refiere a un problema estadístico muy concreto, la he podido aplicar en otros contextos. Es uno de esos conceptos que cuando uno tropieza con ellos, no puede dejar de verlo en todas partes.

Gelman se refería originalmente al problema de la reponderación de las encuestas. Desafortunadamente, por muy aleatorio que sea su diseño, terminan mostrando sesgos. Por no hablar de las que se realizan en periódicos, Twitter, etc. Existen técnicas que, según la teoría, mitigan en cierta medida el problema y permiten realinear mejor o peor sus resultados con la realidad. Para ilustrar el uso de una de estas técnicas, Gelman et al. realizaron una encuesta extrema en los foros de un videojuego con el objetivo de determinar si a partir de la opinión de un conjunto de gamers, podría reconstruirse la general e ilustrar, de paso, una serie de técnicas de su autoría.

Todo sobre el rango dinámico de un sensor de imagen (con R).
“Docling simplifica el procesamiento y parseado de documentos en distintos formatos, incluidos PDFs complejos, […].” Es de IBM (¿existe aún?) y, a pesar de eso, el proyecto está alojado en GitHub.
No sé si me gustan los Notebooks 2.0 de Observable , un híbrido de Jupyter y Excel (es decir, notebooks reactivos). ¿Qué pasará cuando tengas en una celda cálculos largos y cambies accidentalmente un valor que le afecta? ¿Tocará ir por café?
En The Bouquet Residence, Steven Wittens critica una tendencia que observa en la estrategia de comunicación de empresas tecnológicas que prima la emoción sobre la información técnica y basada en hechos y datos, particularmente durante las crisis o las caídas de los sistemas.

La noticia del artículo Beyond Nelson-Siegel and splines: A model- agnostic Machine Learning framework for discount curve calibration, interpolation and extrapolation, me ha hecho volver a pensar un poco en aquel viejo modelo, al que le guardo cierta simpatía por dos motivos. El primero y más personal, que me hizo ganar un poco de dinero tiempo atrás: implementé hace muchos años una serie de scripts en SAS para ajustarlo. El cliente final, si recuerdo bien, era el Banco de España.

The Economist trae una pieza, Want better returns? Forget risk. Focus on fear sobre el papel del miedo en la valoración de activos financieros. Sobre cómo modelarlo matemáticamente, menciona:

El riesgo se mide a través de la varianza (sic), pero el FOL (fear of loss) se refiere únicamente a las pérdidas (o la “semivarianza”). Un activo inspira FOMO (fear of missing out) cuando existe la posibilidad de que tenga una subida abrupta e inesperada que se puedan perder quienes lo ignoran. Esto lo mide la asimetría de la distribución de rendimientos.

Hace muchos años leí Tackling the Poor Assumptions of Naive Bayes Text Classifiers. Es un artículo que viene a decir que, efectivamente, método del naive Bayes es muy útil en NLP, un clasificador que se construye a partir de primeros principios y se puede usar directamente, tal cual viene en la caja, para obtener resultados decentes. Sin embargo, la experiencia indica que el método, en la práctica, funcionaba mejor si se lo somete a una serie de cambios ad hoc. Con estas modificaciones, el clasificador resultante guarda cierta similitud con respecto al original: cambia la priori por otra cosa que se le parece pero que no es igual; cambia la verosimilitud por otra cosa que es, de nuevo, parecida pero no exactamente la misma, etc. Pero funciona algo mejor en la práctica. Es decir, que aquello que se construye desde primeros principios puede verse superado por una versión tuneada.

Dinomight sobre las miserias del peer review. Incluye un par de párrafos buenísimos:

¿Pero qué pasa cuando alguien descubre un error en un artículo ya publicado? Sucede todo el tiempo, pero los artículos casi nunca se retiran o corrigen. Nadie hace mucho aspaviento porque, de nuevo, [los autores] son colegas. ¿Por qué crearse enemigos? Incluso si publican un resultado que corrige luego los errores del primer artículo, la gente tiende a medir sus palabras que la crítica es apenas perceptible.

El otro día estaba oyendo la radio. Además, una emisora inhabitual (para mí, aunque me consta que es popular en algunos círculos) que, diríase, se había sintonizado sola. En el programa en cuestión, la locutora y sus adláteres estaban tratando de construir yet another problema social. Pero tan mal que, por si me leen, he escrito cómo hacerlo mejor. Y también porque quien lea de la mitad para abajo descubrirá aspectos de la cosa que entroncan con el asunto general de estas páginas, la estadística.

Posts

Varias noticias sobre el mundo de los LLMs

El teorema de Napoleón via SymPy

Un par de notas: metaanálisis y estadística pública

Representados pero no representativos

Varios artículos que tenía recopilados sobre tecnología

Nostalgia de Nelson-Siegel

Sobre acicate como traducción de "nudge" y otros asuntos más

Post-bayesianismo, una microintroducción

Una serie de notas sobre el siempre fértil campo de la mala ciencia

Sobre la construcción de problemas sociales (y el papel de la estadística en el proceso)