Cortos

Varias noticias sobre el mundo de los LLMs

  • En The Drugs Are Taking Hold, David Rosenthal discute la muy problemática rentabilidad futura del negocio de los LLMs. Usa la palabra burbuja doce veces.
  • Dynomight escribe un tanto apocalípticamente sobre la potencial capacidad de persuasión de los LLMs. No de los actuales sino de los mucho más inteligentes que se supone que llegarán en algún momento.
  • Este es un hilo en Reddit sobre las actividades más lucrativas para las que los participantes han usado los LLMs. Una de ellas, interactuar con compañías de seguros.
  • Salió Qwen-Image-Edit y, después, Nano Banana, que todo el mundo dice que es mejor. Aún no he jugado con ninguno de ellos.
  • Más sobre el impacto medioambiental de los LLMs. Esta vez, el de Gemini.
  • ¿Pueden los LLMs razonar y planificar? Hay indicios que hacen sospechar que, de hacerlo, lo hacen muy precariamente. Un indicio de ello es, por ejemplo, que generan tokens a la misma velocidad independientemente de la complejidad (en el sentido técnico, matemático, del término) de la tarea propuesta, cosa que es matemáticamente imposible.
  • Dicen que superwhisper es muy bueno para pasar de voz a texto.
  • En el blog de Andrew Gelman no son muy entusiastas de los LLMs. Sin embargo, acaban de publicar esto. Pronostico aggiornamento a corto plazo.
  • Simon Willison ha publicado una lista de algunas de las herramientas que ha creado con LLMs. También ha publicado este ejemplo bastante completo de un análisis de datos realizado a golpe de vibe.

Un par de notas: metaanálisis y estadística pública

Hubo un tiempo en el que para poder señalar que se hablaba ciencia en mano había que citar RCTs. Pero los RCTs acabaron adocenándose y ahora estamos en la era de los metaanálisis. Pero algunos —¿cuántos?—, como nos advierte DataColada, son una especie de albóndiga —tan esférica ella— fabricada con carne picada de muy heterogénea procedencia.

Los siguientes metaanálisis sobre lo del impacto del salario mínimo en nosequé cosas querrán incluir cuarto y mitad de esto. A todo esto: ¿qué llegará antes, la conclusión sobre lo del salario mínimo o las centrales eléctricas de fusión nuclear?

Varios artículos que tenía recopilados sobre tecnología

  • Todo sobre el rango dinámico de un sensor de imagen (con R).
  • Docling simplifica el procesamiento y parseado de documentos en distintos formatos, incluidos PDFs complejos, […].” Es de IBM (¿existe aún?) y, a pesar de eso, el proyecto está alojado en GitHub.
  • No sé si me gustan los Notebooks 2.0 de Observable, un híbrido de Jupyter y Excel (es decir, notebooks reactivos). ¿Qué pasará cuando tengas en una celda cálculos largos y cambies accidentalmente un valor que le afecta? ¿Tocará ir por café?
  • En The Bouquet Residence, Steven Wittens critica una tendencia que observa en la estrategia de comunicación de empresas tecnológicas que prima la emoción sobre la información técnica y basada en hechos y datos, particularmente durante las crisis o las caídas de los sistemas.

Sobre acicate como traducción de "nudge" y otros asuntos más

El riesgo se mide a través de la varianza (sic), pero el FOL (fear of loss) se refiere únicamente a las pérdidas (o la “semivarianza”). Un activo inspira FOMO (fear of missing out) cuando existe la posibilidad de que tenga una subida abrupta e inesperada que se puedan perder quienes la ignoran. Esto lo mide la asimetría de la distribución de rendimientos.

Una serie de notas sobre el siempre fértil campo de la mala ciencia

¿Pero qué pasa cuando alguien descubre un error en un artículo ya publicado? Sucede todo el tiempo, pero los artículos casi nunca se retiran o corrigen. Nadie hace mucho aspaviento porque, de nuevo, [los autores] son colegas. ¿Por qué crearse enemigos? Incluso si publican un resultado que corrige luego los errores del primer artículo, la gente tiende a medir tanto sus palabras que la crítica es apenas perceptible.

Una serie de notas sobre LLMs (incluidas "novedades" sobre el razonamiento matemático de ALIA en catalán)

  • Los interesados en averiguar con cierto conocimiento de causa cuál es el impacto medioambiental del entrenamiento y uso de los LLMs pueden echarle un vistazo a este estudio de Mistral.

  • En esta entrevista, Tyler Cowen argumenta que los métodos tradicionales para medir el progreso de la IA usando benchmarks tienen un problema fundamental y que contribuye a crear la percepción de que el progreso de la tecnología será muy importante. El problema radica en que los benchmarks actuales están basados en tareas que los sistemas actuales todavía no son capaces de realizar. Como alternativa, sugiere medir el progreso de la IA usando una canasta de consumo que mida el progreso precisamente en aquellas tareas en que la gente normal la usa realmente.

Sobre los efectos heterogéneos, la menguante calidad de las estadísticas públicas y algunos asuntos estadísticos más

  • El término y concepto de varianza se acuñaron para, al parecer, poder definir el de heredabilidad en la protogenética decimonónica. Dos artículos muy interesantes y accesibles sobre el tema (sobre todo el segundo), son Missing Heritability: Much More Than You Wanted To Know de Scott Alexander y Heritability puzzlers de Dynomight. (Si crees, como yo, que el segundo tiene un gazapo o inconsistencia, deja una nota en los comentarios).

  • Solomon Kurz ha publicado material para aprender Stan con brms (partes I, II y III). Tengo dos objeciones al uso de brms: primero, que al usarlo no se aprende Stan sino otra cosa; y, segundo, que la interfaz de fórmula para la especificación de modelos, que es lo que permite brms, da de sí lo que da de sí y no más. Es cierto que casi siempre buscamos implementar modelos que admiten una interfaz de fórmula, pero esos son, precisamente, los más sencillos y para los que los LLMs tendrían menos problemas para generar el correspondiente código de Stan.

Una selección muy personal de novedades en el mundo de la tecnología y de los LLMs

Ahí va una lista de novedades tecnológicas que he recopilado —y en algunos casos, integrado en mi flujo de trabajo— a lo largo de las últimas semanas:

  1. f2 para renombrar ficheros de manera inteligente y en masa. Desde línea de comandos, obviamente.
  2. Después de muchos años cómodamente instalado en las herramientas de línea de comandos de toda la vida, he estado explorando reemplazos modernos para algunas de las más comunes.
  3. Microsoft ha publicado Edit, un editor simple para usos simples.
  4. Typst. ¿Adiós a LaTeX?
  5. En esta lista de ocho herramientas de vibe coding, falta mi favorita, Aider.
  6. Y aún no he podido explorar Toad.
  7. Gemini CLI. Amor y odio a la vez.
  8. 20 herramientas SaaS gratuitas y de código más o menos abierto. No sé para qué sirve la mayoría, pero doy fe de que las que conozco hacen lo que dicen hacer bien.
  9. Se ve que el DOGE utiliza un LLM para identificar, entre otras cosas, regulaciones que ya no exige la ley (pero que han quedado vigentes por pura inercia).
  10. El conjunto de Mandelbrot, en código máquina del x86, generado por Claude (aquí). Una vez dije que los LLMs acabarían generando código máquina directamente
  11. The Economist ha creado SCOTUSbot, un LLM para predecir pronunciamientos del tribunal supremo de los EEUU.
  12. Este artículo se publicó antes de que los LLMs alcanzasen el oro en las Olimpiadas Matemáticas Internacionales, pero viene a tratar el mismo asunto.
  13. Así usa OpenElections los LLMs. En resumen, para OCR y poco más.
  14. Uno de los problemas que plantea el entrenamiento de modelos de IA a la red eléctrica no es tanto el consumo como las fluctuaciones. Cuando el modelo está listo para ser entrenado y alguien pulsa Enter, de repente, todas las GPUs se ponen en marcha y…
  15. Ingeniería de contexto > ingeniería de prompts.
  16. Tres nuevos modelos chinos de los que soy fan:
    1. Kimi 2. Funciona igual de bien que otros LLMs más reputados para las tareas habituales pero va mucho más al grano.
    2. GLM-4.5, otro modelo que estoy comenzando a probar y que me gusta bastante.
    3. Qwen3-235B-A22B-Thinking-2507.

Sobre la lógica doxástica, el teorema de Bayes, el problema de Monty Hall y algunos asuntos más

  • La lógica doxástica de la que nos habla Gelman aquí se refiere a un tipo de lógica que opera sobre creencias que no tienen asociados verdadero o falso sino, más bien, otros del tipo el sujeto cree que X es cierto. Se pregunta Gelman si existirá alguna versión probabilística o bayesiana de la cosa y me pregunto por qué no ha caído en toda la obra de Jaynes —por poner solo un ejemplo—, que trata precisamente sobre eso.

Sobre la menguante calidad de las estadísticas públicas y algunos otros asuntos más

El fertilizante para jardinería trae por detrás tres numeritos tras la etiqueta NPK, que indican la proporción de nitrógeno, potasio y fósforo en la mezcla. Es sabido que el crecimiento de las plantas está limitado por el más escaso: es decir, fijada una de las tres letras, incrementar las otras dos no aporta beneficio alguno. Sin embargo, no solo de fertilizante viven los cultivos y las tendencias globales muestran que producir más comida no exige cantidades crecientes de insumos agrícolas. Se puede hacer más con lo mismo —o con menos— usando más de otro insumo del que tampoco andamos tan sobrados: materia gris.