Cortos

Últimamente, casi siempre que se usan las palabras tecnología y enseñanza en una misma frase es para denunciar los perniciosos efectos de la primera en la segunda. No obstante, aquí_ se señala una de sus potenciales atractivos: adecuadamente usada, podría permitir gestionar la varianza (por no usar el término tabú, desigualdad), en el desempeño escolar.
En Stan’s autodiff is 4x faster than JAX on CPU but 5x slower on GPU (in one eval) se ponen en cuestión “leyes de la naturaleza/informática” que no son otra cosa que generalizaciones. Va por casos. Doy fe.
Uno de los problemas de las licencias de abiertas es que, por diseño, olvidan una dimensión muy importante del desarrollo de código: hay gente que vive de eso (véase, por ejemplo, Free as in Do as Your Told). Un nuevo tipo de licencia, la fair source, quiere remediar el problema. En resumen, es un tipo de licencia privativa que deviene automáticamente abierta al cabo de un tiempo razonable.
Otro de los problemas que ocurren (a veces) al desarrollar software libre: que tus dependencias pueden quedar huérfanas, como aquí
Xata ofrece alojamiento para instancias de Postgres que cuenta con un segmento gratuito (free tier). Aquí describen la solución tecnológica y el impacto económico de ese servicio (en concreto, de cómo usan lo uno para minimizar lo otro).

Hoy, cinco breves comentarios sobre dos temas distintos relacionados con la modelización estadística. Sobre el primero, técnicas alternativas de modelización, tres enlaces:

What is elastic weight consolidation?, una técnica para afinar el entrenamiento de modelos profundos. Imagínese que a un LLM ya existente le queremos enseñar, por ejemplo, legislación penal española. En tanto que lo reentrenamos con el código penal, no queremos que olvide todo lo demás que aprendió penosamente. Una ténica que se emplea es la llamada elastic weight consolidation, donde, como en elastic-net, se penaliza el que los pesos se desvíen de un valor de referencia. En elastic-net, ese valor de referencia es el cero. En elastic weight consolidation, son los pesos del modelo inicial. Porque queremos pesos, obviamente, distintos de los iniciales pero no demasiado lejos de ellos. (Queda como eljercicio para el lector la reinterpretación bayesiana del párrafo precedente).
Universal estimation with Maximum Mean Discrepancy (MMD) habla de cómo se puede usar MMD como función de pérdida al ajustar modelos. El MMD es el método de los momentos de toda la vida, pero a lo bestia, es decir, aproximándolos todos ellos a la vez. Se puede ver una aplicación —ya obsoleta por las nuevas IA generadoras de imágenes— aquí.
No tengo ninguna opinión particular sobre el uso de números complejos en el suavizado exponencial. No tengo claro qué se gana (¿algún grado de libertad?), pero dejo constancia de que alguien, en algún lugar, parece estar usándolo.

El segundo, sobre dos aspectos importantes de la modelización estadística:

Suponía que era de conocimiento universal. Pero si John D. Cook siente la necesidad de recordarnos que las probabilidades pequeñas se suman pero las grandes no, será por algo.

Lo raro es que no ocurra nunca nada altamente improbable, edición número 6210.

En los extremos, la varianza importa más que la media. (Se refiere a dos poblaciones con medias y varianzas distintas. Si una observación es extrema, es casi seguro que viene de la población con mayor varianza que la de mayor media, para casi todas las definiciones razonables y compatibles de razonables de mayor y extremo).

Bajo cierto punto de vista, el estudio estadístico de la causalidad viene a consistir en la estimación de modelos incompletos. Un modelo completo es uno que contiene todas las ecuaciones / relaciones causales que afectan a un fenómeno. En uno incompleto, las variables y ecuaciones faltantes introducen sesgos de distinta naturaleza. Uno de los sitios donde mejor lo he visto contar es en Simulating confounders, colliders and mediators, de donde extraigo, además, el siguiente gráfico:

I.

En The “it” in AI models is the dataset se sostiene algo que ya traíamos sabido: que los modelos (incluidos los LLMs) son resúmenes de los datos con los que se entrenan:

Así, cuando hablas de “Lambda”, “ChatGPT”, “Bard” o “Claude” no te refieres a los pesos del modelo sino al conjunto de entrenamiento.

II.

Hablar de hardware en el contexto de los LLMs parecería casi exclusivamente hablar de NVIDIA, pero no solo. El modelo es el siguiente:

I.

Aquí se lee:

Puede parecer absurdo verificar un modelo comparando sus inferencias con las expectativas razonables —–si ya supiéramos qué esperar, ¿para qué modelar nada?— pero hay dos razones por las que este procedimiento nos parece razonable.

Es muy interesante también en tanto que describe la cantidad de hipótesis que entran —más bien, que alguien mete— en uno de esos modelos tan objetivos y data driven que vemos publicados por ahí.

Mesop, una herramienta de Google para crear “AI apps” en Python.

¿Se nos está yendo el tamaño del código JavaScript de las páginas web de las manos? (De cuya lectura, además, he aprendido que existe webpagetest.org, que parece mejor que otras alternativas que he probado por ahí).

uv, un gestor de paquetes de Python “extremadamente rápido” escrito en Rust. ¿Tocará volver a migrar?

Aquí hay una discusión sobre la diferencia entre lugares y sitios —términos ambos que define estipulativamente—. Proyectos como OpenStreetMap se centran en los primeros: coordenadas, sistemas de referencia, mapas, etc. Overture Maps, parece ser, quiere centrarse en los segundos, los sitios, es decir, los bosques, edificios, panaderías, etc. que ocupan el espacio y que son el objetivo —los mapas son solo el medio— de nuestra preocupación por lo que puebla el espacio.

Aquí se lee:

Preferimos el término “comparaciones” al de “efectos” en tanto que el primero es más general que el segundo. Una comparación es un efecto solo en aquellos casos en los que el modelo tiene una interpretación causal válida.

En Intrumental variable regression and machine learning se discute cómo aplicar la técnica de las variables instrumentales no con regresiones lineales sino con otro tipo de modelos más generales (y se ilustra con random forests).

En la entrada de hoy recopilo unas cuantas aplicaciones de los LLMs.

Enlazo una entrevista a Tyler Cowen discutiendo cómo usa los GPTs. Según extrae NotebookLM de su transcripción, sus principales casos de uso son:

Investigar hechos históricos oscuros.
Traducir cualquier cosa.
Obtener información sobre menús en restaurantes el extranjero.
Identifciar plantas y pájaros.
Comprender temas complejos y generar preguntas para entrevistas.
Obtener información a partir de los diarios personales.
Entender las necesidades de su perro.

Aquí, una charla de Simon Willison sobre LLMs en general y sus aplicaciones en particular.

I. Lo que hemos aprendido

Una serie de tres entradas (táctica, estrategia y operaciones) sobre todo lo que hemos aprendido en el tiempo que llevamos desarrollando aplicaciones con LLMs.

II. Prompts

El modelo CO-STAR (contexto, objetivo, estilo, tono, audiencia y respuesta) me ha resultado muy útil para ciertas aplicaciones. Aunque, un día que no es el de hoy, será posible automatizar la búsqueda de prompts efectivos.

III. GPT-2

Cuando apareció, GPT-2 parecía realmente magia. Pero hoy se puede entrenar en hora y media por veinte dólares.

Cortos

Más allá del "software" libre y algunos asuntos más

Cinco asuntos breves sobre modelización estadística

Cómo exprimir la prueba de Kolmogorov-Smirnov y unos cuantos asuntos más

Algunos apuntes sueltos sobre causalidad

Cinco breves notas sobre LLMs

I.

II.

Los boxplots como "herramientas de entretiempo" y cuatro asuntos más

I.

Una propuesta para cambiar la sintaxis de SQL y cuatro asuntos más

Comparaciones vs efectos y cuatro asuntos más

Unas cuantas aplicaciones de los LLMs

Mamba vs "transformers" y cuatro asuntos más

I. Lo que hemos aprendido

II. Prompts

III. GPT-2