LLMs: grados de libertad en la generación de texto

Me he entretenido dibujando

que representa gráficamente los grados de libertad de un LLM según va generando texto. Brevemente, he arrancado con

Never in the history of

y he dejado que mi LLM fuese construyendo

Never in the history of “The Bachelor” has a contestant been so hated by the viewing public.

The “Bachelor” franchise has had its share of villains, but the one who has

mientras registraba el vector de probabilidades en cada iteración, es decir, el vector que permite que el LLM elija, por ejemplo, villains en lugar de maples, vikings or frenchmen.

¿Y si calculamos la potencia de un test a posteriori?

Esta entrada continúa esta otra y describe un cambio realizado en la app para ilustrar qué ocurre —spoiler: nada bueno— cuando se calcula el poder de un test a posteriori, es decir, usando como estimaciones el efecto y su ruido los valores observados.

Como comprobará quien use la herramienta, puede ocurrir casi cualquier cosa. Y, en particular, para potencias de partida pequeña, la estimación de la potencia a posteriori es una enorme sobreestimación de la real cuando la prueba es significativa.

LLMs en perspectiva

I.

Llevamos muchos años —muchos más de los que la mayoría de la gente piensa— detrás de mecanismos del tipo

$$f(h) = x$$

donde $h$ es una historia y $x$ es una continuación suya coherente con $h$. El texto

IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE

se construyó en 1948 usando un procedimiento básico: $h$ son dos caracteres y $x$ es otro caracter que se elige al azar de acuerdo cierta probabilidad condicional $P(x | h)$ que se estima a partir de frecuencias observadas en un determinado corpus.

Si tus datos son minúsculos y están hipersesgados, no los tires a la basura: aquí te contamos cómo reciclarlos.

I.

Supongamos que X es una población determinada. A alguien le interesa estudiar cierto aspecto de ella. Lo que procede es:

  1. Muestrear X adecuadamente.
  2. Medir los parámetros de interés en la muestra.
  3. Aplicar técnicas de inferencia estadística.
  4. Redactar las conclusiones pertinentes.

II.

Supongamos que a alguien le interesa aprender sobre cierto aspecto de una población X. Lo que tiene que hacer es buscar publicaciones en que lo hayan estudiado como se indica en I. Seguramente hay muchas más fuentes que hablen de ese aspecto de la población X, pero si no se han redactado siguiendo el esquema anterior o no están basados en fuentes primarias que lo hayan hecho así, solo acertarán, si lo hacen, de casualidad.

¿Qué catástrofes cabe esperar de las pruebas estadísticas con poca potencia?

Desde cierto punto de vista, lo ideal a la hora de realizar una prueba estadística es que:

  • El efecto sea grande.
  • La variación de los sujetos sea pequeña.
  • El tamaño de la muestra sea generoso.

Pero solo bajo cierto punto de vista: todas las pruebas estadísticas en que pasa eso ya se han hecho antes. Llevamos cientos de años haciendo ciencia y billones de euros invertidos en ella. Lo que nos enseñan las pruebas estadísticas con un SNR (signal to noise ratio) y posibilidad de extraer nuevas observaciones a bajo coste, ya lo sabemos desde hace tiempo. Lo que queda por averiguar de ese antílope del que ya se han saciado la manada de leones que lo cazó son las vísceras, tendones y huesos que roen las hienas. Quienes se dedican a la ciencia están abocados, por aquello de la originalidad, a estudiar problemas en los que algunas de las condiciones anteriores deja de cumplirse. Es decir, muchos de los resultados publicados han estudiado datos en los que:

Sobre la etiqueta medioambiental de los monitores

I.

La semana pasada, tras 18 años de buen servicio —ha estado encendido ininiterrumpidamente desde, por lo menos, el confinamiento—, falleció el que degradé a segundo monitor: un LG Flatron L1910S de 19 pulgadas y una resolución hoy mísera que compré en Carrefor y me costó 500 euros del ala. Podría haberlo reparado porque su único problema, casi seguro, es un fallo superficial en la alimentación; pero me he dejado llevar por el consumismo. De paso, he jubilado uno de los últimos cables VGA que deben de quedar operativos al norte del Manzanares.

Cómo gestiono mis inversiones a largo plazo en renta variable

I.

Esta entrada es una especie de continuación de otra que escribí recientemente sobre la gestión de la liquidez en tiempos de inflación. Describe a alto nivel y sin detalles concretos cómo gestiono mis inversiones a largo plazo en renta variable —la renta fija merece un apartado aparte— y cabe en mi blog por su relación (o no) con la teoría básica de las inversiones financieras, fuertemente fundamentada en la estadística.

Más sobre extensiones (bayesianas, pero no necesariamente) del t-test

En Improving Research Through Safer Learning from Data, Frank Harrell, junto con otros consejos muy provechosos para aquellos investigadores que tengan un compromiso más serio con la rectitud metodológica que con el desarrollo de su carrera profesional, menciona a modo de ejemplo una solución propuesta por Box y Tiao (en el tercer capítulo de esto) al problema del t-test en el caso de que no rija la hipótesis de normalidad. Más propiamente, en casos en los que se sospecha que la desviación con respecto a la normalidad lo es en términos de la curtosis (y no la asimetría).

Gestión de la liquidez en tiempos de inflación

I.

Hubo un tiempo en el que en estas páginas, dejado arrastrar por la corriente, me interesaba por asuntos de esos en los que se asumía la esfericidad de los seres humanos y se estudiaban asuntos como la comparación del radio promedio del alumno esférico español con el de los de otros países de la OCDE. Y otras cosas parecidas o peores.

Desafortunadamente, no somos esféricos, arrastramos nuestras circunstancias multidimensionales y es improbable que vuelva a ocuparme en estas páginas de asuntos que no me competan directamente. Con la esperanza de que puedan ser útiles para otros que se vean en ellos involucrados pero sin garantía ni propósito alguno de universalidad.

De cómo la estadística bayesiana ha descompuesto la solución a un problema que la estadística clásica tenía plusquamsolucionado

I.

Voy a plantear el problema del día en el contexto más simple y familiar para la mayoría que se me ocurre: una ANOVA para comparar dos tratamientos. Se puede representar de la forma

$$y_i \sim \alpha + \beta_{T(i)} + \epsilon$$

donde $T(i)$ es el tratamiento, $A$ o $B$, que recibe el sujeto $i$. Parecería que el modelo estuviese sugiriendo determinar tres parámetros, $\alpha$, $\beta_A$ y $\beta_B$, correspondientes al efecto sin tratamiento y los efectos adicionales de los tratamientos $A$ y $B$. Sin embargo, si $\hat{\alpha}$, $\hat{\beta}_A$ y $\hat{\beta}_B$ es una solución, también lo es $\hat{\alpha} + \lambda$, $\hat{\beta}_A - \lambda$ y $\hat{\beta}_B - \lambda$ para cualquier $\lambda$. ¡No hay solución única (sino, más bien, una recta entera de soluciones)!

[Super]forecasting

I.

Dedicarse a hacer predicciones —es decir, estimar las probabilidades de ocurrencia de eventos futuros— por hobby es un entretenimiento tan digno como cualquier otro. Además, hoy en día existen plataformas (como esta, esta, esta, esta o esta) donde poner a prueba las habilidades propias e, incluso, llegar a monetizarlas. Es un mundo en el que ponderé introducirme en su día para hacer más llevaderas las pesadumbres de la existencia; al fin y al cabo, las habilidades que exige —un conocimiento somero de la teoría de la probabilidad, sentido común y curiosidad y diligencia para documentarse sobre temas variopintos— no me son del todo ajenos. Lo descarté finalmente por tres motivos:

Desigualdad de Schwarz y su aplicación al consumo eléctrico doméstico

Como saben los viejos del sitio, instalé un dispositivo en el cuadro que mide mi consumo eléctrico en tiempo real. Lo que hace el dispositivo es muy simple. Por un lado, mide las funciones $i(t)$ y $v(t)$ (intensidad y voltaje); por el otro lado, calcula las integrales

$$\int_0^T i(t) v(t) dt,$$

$$\int_0^T i^2(t) dt$$

y

$$\int_0^T v^2(t) dt.$$

Con un $T$ pequeño (unos segundos), muestra en una app los valores

$$\frac{1}{T}\int_0^T i(t) v(t) dt,$$