¿Por qué es "tan fácil" la optimización en altas dimensiones?

Esta es la función de Rosenbrock, también conocida como función plátano o —en algunos contextos— como el coco:

Es una de esas funciones contra la que tienen que demostrar su valía los algoritmos de optimización que los matemáticos discurren por ahí. La función ilustra uno de los problemas habituales de la optimización: las variables se confabulan para que las ideas simples no funcionen: los gradientes no apuntan hacia el mínimo, este se encuentra en un valle estrecho, etc. Y que conste que las he visto peores en la práctica.

"El problema de la academia" y cuatro asuntos más

I.

Aquí dice lo que con mi traducción suena así:

El problema de la academia no es el plagiarismo. En economía, un secreto que la academia guarda celosamente es que casi toda la investigación es inválida o inútil por varios motivos.

¿Qué hacer? No leer.

II.

¿Y en estadística? Aquí se cita la frase

Gran parte de la estadística del siglo XX es una pérdida de tiempo consistente en calcular respuestas precisas a preguntas irrelevantes.

Una lectura muy esclarecedora sobre la prelación entre ciencia e ingeniería

Hay gente que discute a veces sobre cuál es el carro y cuál es el burro en el binomio ciencia-ingeniería. Mi opinión al respecto es irrelevante porque no va a cambiar nunca nada en ninguna parte. Pero aquél que quiera asentar la suya, debería leer con atención y desde esa perspectiva Will We Ever Get Fusion Power?.

Lectura de la que extraigo (y, por el camino, traduzco):

El entusiasmo por los tokamaks coincidió con un alejamiento de la teoría y un retorno a la investigación basada en el “constrúyelo y mira a ver qué aprendes”. Nadie sabía realmente por qué los tokamaks lograban resultados tan impresionantes. Los soviéticos no progresaron desarrollando un fundamento teórico sólido, sino simplemente siguiendo lo que parecía funcionar sin entender por qué. En lugar de un modelo detallado del comportamiento subyacente del plasma, el progreso en la fusión comenzó a producirse mediante la aplicación de “leyes de escala”, relaciones empíricas entre el tamaño y la forma de un tokamak y varias medidas de rendimiento. Los tokamaks más grandes funcionaban mejor: cuanto mayor el tokamak, más grande era la nube de plasma y más tiempo tardaba una partícula de esa nube en escapar de la zona de contención. De duplicarse el radio del tokamak, el tiempo de confinamiento podía cuatriplicarse. Con tantos tokamaks de diferentes configuraciones en construcción, los contornos de estas leyes de escala iban a poder explorarse en profundidad: cómo variaban con la forma, la fuerza del campo magnético y otros innumerables variables.

Estimaciones, intervalos de confianza y todas esas cosas... ¿qué significan realmente?

Hace unos años argumenté sobre estimaciones e intervalos de confianza alrededor de

Speed of light

que muestra estimaciones históricas de la velocidad de la luz. Pero

Lifetime neutron

(extraído de aquí) es todavía mucho más jugoso:

  • Por un lado, como en el otro caso, ¿qué significan realmente los intervalos de confianza?
  • Pero, además, las estimaciones se arraciman en el tiempo, y eso refleja… ¿dependencia de la tecnología disponible en el tiempo? ¿Estimaciones rebaño?

Muy instructivo sobre la verdad de las cosas.

Un par de novedades de R 4.4.0 y algunos otros asuntos más

I.

Una vulnerabilidad asociada a R y un análisis sobre la intrahistoria de la misma. Se refiere a la importación acrítica de ficheros binarios de datos en R, en el que un agente malicioso puede haber insertado código que no quieres ver corriendo en tu máquina.

II.

Hay gente que busca asociaciones en tablas con millones de celdas, la mayor parte de las cuales tienen valores 0 o 1. Es un problema con la peor de las pintas del mundo, pero hay artículo y código.

Pero, ¿cuánto consumen los LLMs?

I.

En los años 50 y 60 se hicieron muchas predicciones acerca de cómo sería el mundo de hoy. Eran los años en que se popularizó la ciencia ficción y, además, el cambio de milenio estaba a la vuelta de la esquina.

Puede que alguien se sienta tentado de recopilar predicciones —y elucubraciones— sobre innovaciones técnicas realizadas en esa época y analizar su grado de acierto. Que sepa que llega tarde. Un análisis de ese tipo aparece en (el muy extravagante libro) Where Is My Flying Car?: A Memoir of Future Past. Si uno realizase un análisis discriminante con el objetivo de separar ambas clases —las tecnologías de las que hoy disponemos de las que siguen siendo una ensoñación— observaría que la variable más relevante es la intensidad del uso de la energía: no viajamos regularmente a la luna o nos desplazamos en coches voladores: eso consume mucha energía; sin embargo, realizamos videollamadas y tenemos a un click de distancia prácticamente toda la información disponible el mundo: energéticamente, es casi gratis. Dicen que una búsqueda en Google consume 0.3 Wh (o lo hacía en 2011); tendría que hacer más de 300 búsquedas en una hora para gastar en eso más de lo que quemo yo sentado mientras las realizo.

Más sobre las R² pequeñas

I.

Si uno hace

n <- 1000

# dos clases del mismo tamaño n
x <- c(rep(0, n), rep(1, n))

# mean(y0) = .45, mean(y1) = .55
y0 <- y1 <- rep(0, n)
y0[1:(.45 * n)] <- 1
y1[1:(.55 * n)] <- 1

# mean(y) = .5
y <- c(y0, y1)

summary(lm(y ~ x))

obtiene

Residuals:
   Min     1Q Median     3Q    Max
 -0.55  -0.45   0.00   0.45   0.55

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.45000    0.01574  28.590  < 2e-16 ***
x            0.10000    0.02226   4.492 7.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4977 on 1998 degrees of freedom
Multiple R-squared:   0.01,	Adjusted R-squared:  0.009505
F-statistic: 20.18 on 1 and 1998 DF,  p-value: 7.444e-06

donde quiero subrayar que la R² es del 1% o muy pequeña.

Lista de los ETFs comercializados por ING

ING tiene ciertas ventajas en las que noi voy a abundar para aquellos inversores interesados en hacer medrar sus ahorros en carteras de ETFs. Por otra parte, dos de sus principales desventajas son:

  1. Que la lista de ETFs disponibles no es particularmente amplia.
  2. Que su buscador de ETFs es manifiestamente perfectible.

Como remedio a (2) me he entretenido en orquestar un sistema que descarga y organiza la lista de ETFs disponibles en ING y hacerla pública aquí.

Manipulación y discriminación

I.

Hace unos años, en un congreso de R, hubo un panel de periodistas de datos. En la ronda de preguntas, alguien del público preguntó: “¿cómo manipuláis los datos?” Muy previsiblemente, los tres panelistas respondieron respodieron rápida y destempladamente: “No manipulamos los datos”.

II.

Discriminar —es decir, separar una masa en unidades homogéneas— es una de las tareas tradicionales de la estadística. La técnica más básica y explícita de discriminación (el análisis discriminante lineal), fue introducida por Fisher entre 1936 y 1940 en una serie de artículos, de entre los cuales, el más famoso es The use of multiple measurements in taxonomic problems, publicado nada menos que en los Annals of Eugenics, y en cuya segunda página aparece en toda su gloria y para la posteridad en famoso conjunto de datos iris.

Regresiones con discontinuidad y algunos otros asuntos

I.

A veces te tropiezas con algún conocido en algún sitio fuera de donde lo frecuentas y lo saludas con un “¿qué haces tú por aquí?”.

El otro día, leyendo sobre aquellos audaces emprendedores de siglos atrás que perseguían móviles perpetuos tropecé con William Petty, nada menos.

II.

Tomas varias fotos de un mismo motivo y las combinas (o apilas) usando distintas técnicas. Guillermo Luijk nos ilustra con lo que pasa cuando usas el mínimo, el máximo, la media y la mediana como funciones de agregación.

¿De qué "forma" es que A causa B?

En muchos sitios se habla sobre cómo A causa B —o tiene un efecto de cierto tamaño sobre B—. Mucho menos se suele hablar de la forma de ese efecto. El siguiente gráfico (extraído de aquí) muestra ocho de las infinitas formas en que una variable puede tener un efecto sobre otra:

En todas ellas, el efecto global tiene el mismo valor medio.

Los corolarios los dejo para cada cual.

Embeddings, LLMs y algunas de sus aplicaciones a mediados de 2024

I.

Están apareciendo herramientas basadas en LLMs para industrializar la investigación. Tengo recopiladas, por el momento, cuatro: Consensus, Zotero, Elicit, Tavily y FutureSearch. De vez en cuando pruebo Consensus para valorar cómo va mejorando. Y le queda: la última vez, al preguntarle sobre el procedimiento científico para reproducir la dipladenia por esquejes, me sugirió algo así como aplicarle rayos gamma (!).

II.

Unos cuantos enlaces sobre aplicaciones reales —en la economía real— de los LLMs (y los LMMs) en diversas áreas, como el vídeo (vía sora), la música (vía suno), la programación (vía devin) o el RAG y/o Finetuning.

Descuento hiperbólico: lo que es y lo que no es

I.

La teoría dice que el valor ahora (o presente) de un bien $A$ en el futuro, dentro de un tiempo $t$, es $A\exp(-tr)$, donde $r$ es la llamada tasa de descuento.

Entonces, si $A$ son 100 € y la $r$ de cierto individuo es tal que el valor presente de 100 € dentro de un año son 50 €, este individuo valorará de igual manera 50 € hoy o $100 \exp(-r) = 50$ € dentro de un año.