Posts

Migración de Pocket a Wallabag

Creo que en alguna ocasión he hablado de mi infraestructura para industrializar mi proceso de lectura. A grandes rasgos, funcionaba así:

  • Usaba Pocket como repositorio central. Una de las ventajas que ofrecía era que podía ser utilizado vía API.
  • Sigo unos cuantos blogs e importaba los RSS a Pocket en un proceso diario que corre via cron en mi servidor doméstico.
  • Además, en Pocket almacenaba artículos interesantes que encontraba mientras navegaba.
  • Un proceso horario reclasificaba esos enlaces en distintas etiquetas específicas para:
    • Entradas que leer más despacio (p.e, el fin de semana, frecuentemente con el apoyo de NotebookLM).
    • Entradas que archivar en Obsidian.
    • Entradas que me inspiran a escribir sobre asuntos en el blog.
    • Etc.
  • Una de las etiquetas, resumir se asociaba a enlaces cuyos contenidos pasaba luego por un LLM para obtener un resumen del texto. La entrada en cuestión, se reetiquetaba como resumida y, una vez leído el resumen, consideraba las distintas opciones: borrarla, reetiquetarla de nuevo, etc.

Todo el proceso ocurre con un alto grado de automatización:

Cómo recompensamos a los creadores de ideas y algunos asuntos más

Comienzo con tres artículos recientemente sobre un mismo tema: los problemas de los que adolecen las estadísticas públicas y las dificultades que ello supone para la gestión económica. Uno de ellos es este, en el que se da cuenta de la creciente desconfianza de los economistas de muchos países en los resultados de las encuestas que publican los órganos estadísticos. Apunta a dos causas: la infrafinanciación de la función estadística y a la desconfianza de la población, manifestada en el derrumbe de la tasa de respuesta en las encuestas. El segundo se refiere a problemas específicos en el cómputo de la tasa de inflación en Argentina provocados por la flagrante desactualización de los ítems de la canasta de referencia. El tercero abunda en las sutilezas del proceso de actualización de dicha canasta.

El voltaje en mi casa el día del apagón vs otros días de abril de 2025

Algunos de quienes me leen se acordarán de que sigo el consumo eléctrico —y otras variables concomitantes— de mi casa en tiempo casi real. De eso he hablado en otras ocasiones, como esta. En la sección de entradas relacionadas que acompaña a esta hay más referencias a ese entretenimiento mío.

Lo mido con un dispositivo chino que cada pocos segundos manda un ping a mi servidor local y otro a un servidor de su país de origen. Los nietos de Deng Xiaoping saben cuándo pongo lavadoras.

Una serie de apuntes sobre tecnología

El estado francés ha creado una plataforma, La Suite (¿Numérique?), que parece una especie de Teams de código abierto pensada para el sector público. Como acostumbramos a decir los europeos de pro, el Airbus de los workspaces.

Hablando de código abierto, en The Value of Open Source Software se estima su valor (8.8 billones españoles de dólares) y su precio (4.15 miles de millones). Además, se calcula que las empresas tendrían que pagar 3.5 veces más por el software si todo él fuese propietario.

Más sobre la relación entre la dispersión de las probabilidades y el AUC en modelos bien calibrados

Esta entrada está relacionada —aunque no es estrictamente una continuación— de la que escribí hace una semana sobre el mismo asunto.

Se vuelve a partir de lo siguiente: un modelo de clasificación binaria bien calibrado. Eso significa que si el modelo predice $p$ para el sujeto $i$, entonces $Y_i \sim B(p)$.

Supongamos que tenemos una población dada, aplicamos el modelo y obtenemos una distribución $f(p)$ para las probabilidades predichas. Entonces, la distribución de:

Una serie de apuntes sobre modelos estadísticos

Andrew Gelman se pregunta periódicamente por la obsesión generalizada en involucrar a Jesucristo con los modelos lineales. Versión corta: si el año se modela tal cual (p.e., 2025), el término independiente nos aporta información sobre el hipotético estado de las cosas en el año en el que nació. En general, es conveniente parametrizar las variables de manera que el término independiente de un GLM tenga un mínimo contenido informativo.

Un artículo muy raro de Manuel Hidalgo en NadaEsGratis que incluye todas las palabras que hacen que dejes de leer algo: cuántico, entropía, desorden (como sinónimo de incertidumbre), etc. Lo relevante de la cosa no parece ser tanto lo que cuenta (ya sabemos que hay incertidumbre en el mundo, ya sabemos que nuestra visión del mundo está marcada por la incertidumbre, etc.) sino poder constatar que a ciertos segmentos de la población hay que recordarles estas cuestiones y que puede que incluso se sorprendan cuando se las cuentan.

Sobre la relación entre la dispersión de las probabilidades y el AUC en modelos bien calibrados

Supongamos que estamos construyendo un modelo de clasificación binaria. Supongamos que está bien calibrado, es decir, que cuando predice una probabilidad $p$ de éxito para un sujeto $i$, entonces es cierto que $Y_i \sim \text{Bernoulli(p)}$.

Por otro lado, pensemos en el AUC, que es muchas cosas, pero entre ellas,

$$ AUC=Pr(p_i >p_j | Y_i =1,Y_j =0),$$

es decir la probabilidad de que, tomando dos sujetos al azar, uno positivo, el $i$ y otro negativo, el $j$, $p_i > p_j$.

Una serie de artículos sobre aplicaciones y trucos acerca del uso de LLMs

Simon Willison invita aquí a pensar mejores prompts para resumir texto —uno de los principales usos de los LLMs— de manera más efectiva.

Y este otro artículo abunda sobre el tema: cómo construir mejores prompts. El problema que tiene es el de siempre: solo puedes entretenerte en pulir los prompts cuando esperas obtener mucho valor de la respuesta. Para el uso rápido y cotidiano, continuaremos con nuestras heurísticas frugales.

Dos usuarios avanzados de los LLMs desvelan sus algunos trucos:

Multiplicidad de modelos, multiplicidad de explicaciones: algunas consecuencias

Hay cosas obvias en las que uno no repara hasta que ve que otro les apunta con el dedo y les da un nombre. Luego no deja de verlas por doquier.

Una de ellas y que ahora encuentro en todas partes es la de la diversidad de explicaciones. Escribí sobre ello el otro día. Decía allí (citando un artículo de B. Ripley):

Si buscamos un modelo explicativo, deberíamos tener presente que puede haber varios modelos explicativos (aproximadamente) igual de buenos: lo aprendí […] tras haber hecho muchas selecciones informales de modelos en problemas aplicados en los que me hubiera resultado útil haber podido presentar soluciones alternativas.

¿Está empeorando la calidad de las estadísticas públicas? (y algunos asuntos más)

En Faulty Speedometers se discute el creciente problema de calidad en determinadas estadísticas de la ONS (el INE británico). Acerca de la EPA de allá, dice:

La caída de la tasa de respuesta no ha sido uniforme en todas las categorías demográficas y la ONS se ha visto obligada a aplicar cada vez más hipótesis y datos imputados a la hora de estimar el número de empleados, la tasa de paro y la tasa de inactividad. El resultado han sido estadísticas oficiales del mercado de trabajo que parecen ser simplemente incorrectas.