"Outliers": las dos aproximaciones

Leyendo Taking Outlier Treatment to the Next Level me entretuve en pensar cómo la literatura sobre el tratamiento de los outliers tiende a ignorar y confundir los dos modos —o más bien, circunstancias— de enfrentarse a ellos. Por ejemplo, en ese enlace se discute alrededor de los datos y el modelo representado en,

que, como veremos, pertenece a lo que llamo primer modo usando técnicas propias del segundo.

Obviamente, el segundo tiene que poder ilustrarse con datos concretos. Es entendible. Pero es contraproducente para el lector pensar que las técnicas propias del segundo modo han de aplicarse —o poder aplicarse— donde procede las del primero.

Sobre la elipse que "mejor" se ajusta a una "nube de puntos"

Es un problema conocido ese de tener una nube de puntos $(x_i, y_i)$ y preguntarse por la mejor recta (o polinomio de grado 2, 3, etc.) que los ajusta. Pero a veces uno busca la mejor elipse. Un caso del que me acuerdo (aunque allí se buscaba un círculo, más bien), es en Calculando la redondez de una piedra con R. Yo me encontré con el problema al construir una pequeña herramienta que me ayudase a mejorar el trazo de mis elipses a mano alzada; se trata de una página web (para visitar idealmente desde una tableta con lápiz electrónico) que:

Mi última aplicación de los LLMs en producción

Esta entrada bien podría llamarse también Mi primera aplicación de los LLMs en producción, siendo que ninguna versión falta a la verdad. También es cierto que no es la primera que construyo —pero sin que haya trascendido—; y que hay que cualificar la expresión en producción siendo que corre en mi servidor doméstico y para mis propios fines personales.

Contexto

Estoy industrializando mi proceso de lectura. Central en él es Pocket, una herramienta que permite archivar enlaces y acceder a ellos vía API.

Ajuste de modelos: Optimización vs generalización

He escrito esta entrada como una introducción a lo que se cuenta aquí, aquí y aquí sobre el asunto de la relación entre la optimización (como parte del proceso de ajuste de modelos) y la generalización (o su capacidad para aprender sobre el mundo y no solo sobre los datos de entrenamiento). En los enlaces, el lector encontrará planteadas una serie de cuestiones sobre cómo y por qué generalizan los (o cierto tipo de) modelos en lugar de, simplemente, no hacerlo.

Sobre la interpretación de los indicadores económicos

The Economist tiene a bien publicar una serie de tablas comparativas de los indicadores económicos más importantes de las distintas economías. Si uno se fija en la fila de Tailandia verá que sistemáticamente tiene unas cifras de desempleo ridículas. Por ejemplo, es el 0.9% en la última edición.

Pero, ¿es Tailandia el paraíso en la tierra para los trabajadores? Me temo que no. ¿Se calcula entonces allí la tasa de desempleo de alguna manera particular y sesgada? Tampoco: se trata de un indicador que se construye usando una metodología uniforme en todas partes.

Una aplicación inesperada de la detección de "outliers"

Es esta:

La foto está construida apilando varias tomadas secuencialmente. Cada píxel que se ve procede de alguna de las originales. En concreto, en la coordenada $ij$ se selecciona uno de los píxeles $ij$ de alguna de las de partida.

Para conseguir el efecto deseado, el píxel seleccionado es no otro que el outlier. En este caso concreto, la antimediana, el más alejado de la mediana.

La foto original, una discusión detallada del algoritmo, etc., puede consultarse en Apilado por ‘antimediana’ para replicar sujetos en movimiento con Photoshop.

El discreto encanto de los árboles olvidadizos

I.

A mediados de los ochenta, hubo un momento fundacional en la historia del aprendizaje automático: la aparición de los árboles de decisión. El artículo de Breiman sobre las dos culturas puede entenderse así: existe —o existía en esa época— la cultura de los que usan métodos estadísticos tradicionales y la de los que usan árboles de todo tipo.

Herramientas de minería de datos de entonces, tales como las que vendían SAS o IBM, no encerraban debajo del capó otra cosa —u otra cosa novedosa— que árboles de decisión propietarios. Por todo lo anterior había mucho interés en conseguir mejores árboles, árboles que permitiesen crear mejores modelos —en el sentido, claro está, de cometer errores pequeños—.

Nueva (y espero que última) versión de MicrodatosEs

R

El otro día visité el museo de ciencias naturales de Madrid. Constaté que aún no he perdido mi extraño interés por esas pocas especies que dizque convivieron con los dinosaurios. MicrodatosEs es casi una criatura de esa época. No tanto, pero casi.

Me sorprende, de hecho, que tuviese algún usuario; que este, además, encontrase un bug y que, finalmente, diese noticia de él. La versión que lo soluciona es la que ahora figura y ocupa espacio en CRAN.

Causalidad en el EuroMedioMillón

Esta entrada trata sobre la causalidad; en particular, sobre que sobre ella nos enseña el artículo ¿Cómo reaccionan los individuos a los impuestos sobre ingresos “caídos del cielo”?. Aunque antes de llegar al meollo del asunto, me voy a permitir un par de digresiones.

I.

El artículo fue publicado en NadaEsGratis, un blog de economía que ha conocido dos fases distintas y que son ambas interesantes por motivos casi opuestos:

  • La fase excepcional, durante la que escribían en él grandes economistas que inspiraban a sus lectores y ampliaban su visión del mundo.
  • La fase regular, en la que su lectura revela no es otra cosa que las miserias de la disciplina tal cual da la impresión de profesarse en España. Informa ya no tanto sobre el mundo sino sobre los pretendidos informantes.

De esas cuestiones traté una vez superficialmente aquí.

Sobre lo de Ariely, Gino, etc.

I.

Hay tres motivos por los que me interesa esta historia que, creo, serán compartidos por mis lectores:

  • Dice mucho sobre la recocina donde se prepara eso que llaman ciencias sociales.
  • Tiene mucho interés estadístico, es material docente de primera.
  • Y, sobre todo, ¡es tan ameno!

II.

En 2012, cinco autores —Shu, Mazar, Gino, Ariely y Bazerman— que pertenecían a dos grupos de investigación distintos que trabajaban sobre un mismo asunto, decidieron publicar un artículo conjunto con tres estudios que apuntaban en una misma dirección: Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end.

Inmigración y PISA: ¿en qué quedamos? (si es que merece la pena)

I.

Comenzaré por los dos relatos.

El primero, está resumido en la siguiente infografía que se puede encontrar en la página 36 del primer volumen de los resultados de PISA de 2022:

El hecho destilado que los autores del informe pretenden que uno aprenda leyendo eso —al menos, a la ligera— es que el ser inmigrante —así, en abstracto— no afecta al desempeño académico.

El segundo relato está también resumido en otro gráfico,

Causalidad: un (otro) ejemplo de libro

A pesar de lo intrincados que resultan muchos de los diagramas causales que aparecen en los textos, en la práctica abundan las cuestiones y los estudios alrededor de sus formulaciones más simples, es decir, la representada por

Este gráfico se resumen varios posibles escenarios:

  • A causa B.
  • Tanto A como B están causados por un tercer factor C.
  • O, incluso, una mezcla de los dos anteriores.

Las discusiones alrededor de estos diagramas puede ser bizantina (y, generalmente, lo es), debido principalmente al interés que tienen tirios o troyanos en poner en marcha las acciones que parecen controlar el proceso según se dé importancia a unos u otros factores.

Sobre los retos asociados a la "stealthflation"

Estoy aficionándome a usar el Chatbot Arena como intefaz para utilizar LLMs. No solo te da acceso a algunos de los más potentes, sino que te lo ofrecen en pares (y uno puede puntuar las respuestas para elaborar posteriormente un ránking ELO de todos ellos).

Y resulta que al preguntarles qué cosa es la stealthflation, gpt-4-turbo me ha dado prácticamente el resumen de lo que quería exponer en presente entrada. Con mi traducción,