Cortos

Sobre los nombres de persona asociados a coeficientes intelectuales bajos y algunos otros asuntos más

En Dear Political Scientists: Don’t Bin, GAM Instead se discute una ocurrencia concreta de una disyuntiva más general que aparece frecuentemente en la práctica: crear varios modelos simples con bloques diferentes de datos contra utilizar un modelo global flexible que englobe todos los datos. Tengo la sospecha de que se ha optado históricamente por la primera aproximación por motivos —entre otros— computacionales que ya no operan.

La única manera de plantearse en serio la pregunta Will Transformers Revolutionize Time-Series Forecasting? es no saber de predicción de series temporales y no saber de transformers. No está nada claro, por ejemplo, cómo usar transformers para modelar series como $y_t = \alpha t + \epsilon_t$. Pudiera ser que LSTM funcionase mejor (véase esto o esto) pero sigo apostando por Forecasting: Principles and Practice.

Varios apuntes sobre causalidad

Lo más satisfactorio de la entrada Resolving disputes between J. Pearl and D. Rubin on causal inference es constatar cómo el autor, Andrew Gelman, también encuentra opacos conceptos muy pearlianos como el de collider of an M-structure.

La entrada de NadaEsGratis en cuestión se titula Consumo de alcohol entre los adolescentes y rendimiento educativo. Por dónde y cuándo se ha publicado, sabemos sin leerla que va a encontrar una relación negativa entre ambos. Pero el estudio está plagado de problemas (el uso de proxies, efectos pequeños, la gran cantidad de ruido, la falacia ecológica, etc.), cualquiera de los cuales hemos visto por sí solos poner en cuestión otros resultados en otras partes. Afortunadamente para el autor, como solo busca probar que la hierba es verde y que al agua moja, es muy probable que nadie lo cuestione con el manual de metodología en mano.

LLMs: ModernBERT y algunos asuntos más

Aplicaciones

Daisy, una “abuelita IA” para marear a los estafadores. Se trata de una herramienta creada por O2 en el RU que atiende llamadas telefónicas de timadores y entabla conversaciones con ellos con el objetivo último de hacerles perder tiempo. Van a ser entretenidos los falsos positivos cuando, sin duda, los haya.

Prompts

Por un lado, internet está plagada de tutoriales y trucos para generar mejores prompts. Por otro, se advierte una brecha cada vez más ancha entre quienes saben utilizar los LLMs con cierta soltura y los que no. Uno de los problemas que plantean los LLMs es que cada cual, por el momento, está prácticamente solo a la hora de diseñar su propio arsenal de herramientas construidas sobre los LLMs que resulten útiles para su trabajo concreto. Por eso y a pesar de la objeción que planteo arriba, me atrevo a mostrar, como ejemplo de buen uso de estas tecnologías lo que se cuenta en 5 Mega ChatGPT Prompts that I Use Everyday to Save 4+ Hours.

Predicción conforme, visualización y otros comentarios breves

Predicción conforme

Hace un año largo dejé unas breves impresiones sobre la llamada predicción conforme en el blog. Hoy traigo un par de artículos sobre el tema de gente que ha estado pensando sobre el asunto más que yo.

  1. Conformal prediction estilo compadre, que implementa la técnica cuidadosamente en R para desmitificarla y que todo el mundo tenga claro de qué se está hablando realmente.
  2. When do we expect conformal prediction sets to be helpful?, con una crítica a la técnica en cuestión similar a la que le hice yo.

Gráficos

Tres enlaces interesantes sobre gráficos. Uno, sobre la visualización y animación de las series de Fourier; otro sobre la regularización en mapas usando MRF y, finalmente, un juego en el que hay que adivinar a qué serie estadística corresponde el gráfico sin etiquetas que se propone.

Una serie de asuntos sobre encuestas, mercados de predicciones y su intersección

Este es un largo artículo largo de Andrew Gelman sobre lo que fue el gran pequeño tema de hace unas semanas: ¿funciona eso de preguntar en las encuestas sobre lo que opinan los vecinos o familiares de los encuestados? ¿Qué nos dice la evidencia?

Escribí una vez (aquí) sobre las cuestiones éticas y económicas que subyacen en los mercados de predicciones. El resumen es más o menos que generan grandes externalidades positivas pero que los agentes no pueden internalizar suficiente valor como para que operen por sí mismos, es decir, sin incentivos externos. Pero el hecho de que se intenten manipular (como aquí) es, en el fondo, una buena noticia: no son irrelevantes.

Unas cuantas notas sobre filosofía de la ciencia

¿Qué fue antes, la ciencia o la ingeniería?

Tengo tres entradas al respecto. La primera arranca con una serie de comentarios sobre cómo el aprendizaje automático parece más ingeniería que ciencia propiamente dicha y cómo se suma a la lista de ejemplos que parecen demostrar cómo la ingeniería precedió a la ciencia (tesis que el autor considera una priori fuerte al entrar a discutir cada caso particular).

Las otras son ilustraciones concretas de la tensión entre ciencia e ingeniería. Una de ellas discute nada menos que la historia de los primeros remedios para el escorbuto y la segunda, muy apropiadamente, tiene el nombre de What learning by looking looks like.

Seis asuntos sobre modelización estadística, incluyendo un problema que no parece del todo trivial

Sobre catboost

Todavía no he usado catboost en ningún proyecto serio, aunque tiene la pinta de ser la evolución más sofisticada de todos las variantes existentes del boosting. Ya escribí al respecto aquí y hoy traigo dos enlaces adicionales de José Luis Cañadas, un usuario muy entusiasta. Una sobre el tratamiento de las variables categóricas y otro sobre la regresión por cuantiles.

Ajuste bayesiano de un modelo con censura

Lo presenta el maestro Juan Orduz aquí que, como todos, no para mientes al hecho no totalmente evidente de que la verosimilitud de una densidad mixta (continua y discreta a un tiempo) es la que se postula que es (véase cómo arranca la sección Censored Gamma Model).

Unas cuantas herramientas tecnológicas

Modelos directamente en base de datos

Sería muy cómodo poder correr modelos estadísticos directamente en la base de datos, sin tener que realizar costosas y problemáticas extracciones de datos. Rebuscando, he encontrado entradas de hace catorce años sobre el asunto en estas páginas (esta), de la época en que a eso se lo llamaba in-database analytics y se suponía que era el motivo de la entonces esperada fusión de SAS y Teradata.

LLMs: ajedrez, poesía, "ciencia normal", "prompts" y "RAG"

Poesía

Hace poco se publicó un artículo en el que se estudiaban los resultados de un estudio ciego en el que a una serie de sujetos se les presentaban poemas escritos sea por humanos o por LLMs y se les preguntaba su opinión al respecto. No he leído el artículo, pero aquí están las opiniones no enteramente coincidentes al respecto de Tyler Cowen y de Jessica Hullman.

Ajedrez

Uno de los resultados más sorprendentes del prehistórico GPT-2 es que había aprendido a jugar al ajedrez sin que nadie le hubiese enseñado explícitamente. Cuatro años después, Dynomight ha retomado el asunto y ha escrito esto y esto.

LLMs: algunas herramientas (potencialmente) útiles

Artefactos de Claude

Uno de los aplicaciones derivadas de los LLMs que más satisfacciones me están dando son los artefactos de Claude (véase, por ejemplo, esto).

Es complicado en todo caso ejecutar aplicaciones web generadas por Claude (vía artefactos) por defecto sin haber configurado previamente un entorno en node con las dependencias adecuadas. Los artefactos están pensados para, por defecto, ser alojados por Claude directamente. Si uno quiere bajar el código y correrlos en su propia máquina, tiene que hacerlo en un entorno en el que existan las dependencias correspondientes.

k-means "2.0" y cuatro asuntos más

  1. Existe un blog muy raro y entretenido, Weierd Data Science, en el que hace años publicaron una serie de artículos realizando un análisis estadístico no enteramente trivial del manuscrito Voynich. Esta es la última entrega de la serie de cuatro entradas, que ilustra y entretiene más y mejor que esas actividades que alguien ha decidido que formen parte del canon cultural.
  2. Son estos tiempos de llave inglesa: una única herramienta para apretar y aflojar cualquier tipo de tuerca. Me refiero, obviamente, al deep learning y las redes neuronales. Sin embargo, fuera del foco mediático, la gente sigue construyendo y ajustando modelos con formas funcionales fuertes, como el modelo de Wiener en sicología.
  3. k-means 2.0
  4. He debido de comentar y enlazar el artículo Decision-making under uncertainty: heuristics vs models una docena de veces. Pero siempre encuentro un motivo nuevo para volver a él.
  5. En The likelihood principle in model check and model evaluation, se discute un asunto que no llega, pienso, a la categoría de problema: dos modelos generativos distintos pueden compartir verosimilitud.

Un argumento en contra del redondeo y cuatro breves asuntos más

  1. Ahora se pueden correr Stan en el navegador (vía WebAssembly) aquí.
  2. En este artículo relacionado se preguntan sobre la problemática relación entre MCMC y las GPUs. La respuesta es, esencialmente, que no: el MCMC es iterativo y no se presta al paradigma SIMD (single instruction, multiple data). Los únicos casos en los que he visto alguna ganancia son esos —rarísimos— en los que el modelo involucra algún tipo de red neuronal que sí que puede aprovechar el paralelismo.
  3. En este artículo, John D. Cook se suma los críticos del BMI —que no es novedad— y sugiere reemplazarlo —esto sí— por algún tipo de índice de redondez (del cuerpo del sujeto).
  4. Un problema de los LEFTs es que la volatilidad diaria socava gravemente su rentabilidad. Para evitar ese problema, se han lanzado LEFTs que cierran semanal o mensualmente.
  5. Una recomendación habitual es evitar la sobreprecisión en los números publicados (p.e., $p = 0.0421942). Sin embargo, en Please, show lots of digits argumenta en contra: esos números no redondeados aportan información adicional que puede permitir realizar ingeniería inversa y revelar cifras y procedimientos no explícitamente mostrados en los artículos.

Más allá del "software" libre y algunos asuntos más

  1. Últimamente, casi siempre que se usan las palabras tecnología y enseñanza en una misma frase es para denunciar los perniciosos efectos de la primera en la segunda. No obstante, aquí_ se señala una de sus potenciales atractivos: adecuadamente usada, podría permitir gestionar la varianza (por no usar el término tabú, desigualdad), en el desempeño escolar.
  2. En Stan’s autodiff is 4x faster than JAX on CPU but 5x slower on GPU (in one eval) se ponen en cuestión “leyes de la naturaleza/informática” que no son otra cosa que generalizaciones. Va por casos. Doy fe.
  3. Uno de los problemas de las licencias de abiertas es que, por diseño, olvidan una dimensión muy importante del desarrollo de código: hay gente que vive de eso (véase, por ejemplo, Free as in Do as Your Told). Un nuevo tipo de licencia, la fair source, quiere remediar el problema. En resumen, es un tipo de licencia privativa que deviene automáticamente abierta al cabo de un tiempo razonable.
  4. Otro de los problemas que ocurren (a veces) al desarrollar software libre: que tus dependencias pueden quedar huérfanas, como aquí
  5. Xata ofrece alojamiento para instancias de Postgres que cuenta con un segmento gratuito (free tier). Aquí describen la solución tecnológica y el impacto económico de ese servicio (en concreto, de cómo usan lo uno para minimizar lo otro).