El discreto encanto de los árboles olvidadizos

I. A mediados de los ochenta, hubo un momento fundacional en la historia del aprendizaje automático: la aparición de los árboles de decisión. El artículo de Breiman sobre las dos culturas puede entenderse así: existe —o existía en esa época— la cultura de los que usan métodos estadísticos tradicionales y la de los que usan árboles de todo tipo. Herramientas de minería de datos de entonces, tales como las que vendían SAS o IBM, no encerraban debajo del capó otra cosa —u otra cosa novedosa— que árboles de decisión propietarios.

Nueva (y espero que última) versión de MicrodatosEs

R
El otro día visité el museo de ciencias naturales de Madrid. Constaté que aún no he perdido mi extraño interés por esas pocas especies que dizque convivieron con los dinosaurios. MicrodatosEs es casi una criatura de esa época. No tanto, pero casi. Me sorprende, de hecho, que tuviese algún usuario; que este, además, encontrase un bug y que, finalmente, diese noticia de él. La versión que lo soluciona es la que ahora figura y ocupa espacio en CRAN.

Causalidad en el EuroMedioMillón

Esta entrada trata sobre la causalidad; en particular, sobre que sobre ella nos enseña el artículo ¿Cómo reaccionan los individuos a los impuestos sobre ingresos “caídos del cielo”?. Aunque antes de llegar al meollo del asunto, me voy a permitir un par de digresiones. I. El artículo fue publicado en NadaEsGratis, un blog de economía que ha conocido dos fases distintas y que son ambas interesantes por motivos casi opuestos:

Sobre lo de Ariely, Gino, etc.

I. Hay tres motivos por los que me interesa esta historia que, creo, serán compartidos por mis lectores: Dice mucho sobre la recocina donde se prepara eso que llaman ciencias sociales. Tiene mucho interés estadístico, es material docente de primera. Y, sobre todo, ¡es tan ameno! II. En 2012, cinco autores —Shu, Mazar, Gino, Ariely y Bazerman— que pertenecían a dos grupos de investigación distintos que trabajaban sobre un mismo asunto, decidieron publicar un artículo conjunto con tres estudios que apuntaban en una misma dirección: Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end.

Inmigración y PISA: ¿en qué quedamos? (si es que merece la pena)

I. Comenzaré por los dos relatos. El primero, está resumido en la siguiente infografía que se puede encontrar en la página 36 del primer volumen de los resultados de PISA de 2022: El hecho destilado que los autores del informe pretenden que uno aprenda leyendo eso —al menos, a la ligera— es que el ser inmigrante —así, en abstracto— no afecta al desempeño académico. El segundo relato está también resumido en otro gráfico,

Causalidad: un (otro) ejemplo de libro

A pesar de lo intrincados que resultan muchos de los diagramas causales que aparecen en los textos, en la práctica abundan las cuestiones y los estudios alrededor de sus formulaciones más simples, es decir, la representada por Este gráfico se resumen varios posibles escenarios: A causa B. Tanto A como B están causados por un tercer factor C. O, incluso, una mezcla de los dos anteriores. Las discusiones alrededor de estos diagramas puede ser bizantina (y, generalmente, lo es), debido principalmente al interés que tienen tirios o troyanos en poner en marcha las acciones que parecen controlar el proceso según se dé importancia a unos u otros factores.

Sobre los retos asociados a la "stealthflation"

Estoy aficionándome a usar el Chatbot Arena como intefaz para utilizar LLMs. No solo te da acceso a algunos de los más potentes, sino que te lo ofrecen en pares (y uno puede puntuar las respuestas para elaborar posteriormente un ránking ELO de todos ellos). Y resulta que al preguntarles qué cosa es la stealthflation, gpt-4-turbo me ha dado prácticamente el resumen de lo que quería exponer en presente entrada. Con mi traducción,

¿Cuántos ancestros tenemos realmente? ¿De dónde vienen?

Es oportuno revisar la entrada Where did your genetic ancestors come from?, que discute la cuestión de cuántos ancestros tenemos realmente (respuesta breve: muchos menos de los que nos hace creer la cuenta que echamos en la servilleta), su diversidad geográfica (posiblemente, mucho menor de la esperada), etc. El quid de la cuestión radica en la distinción entre ancestros genealógicos y genéticos. Todos tenemos $2^n$ ancestros genealógicos —supuesto que no haya solapamientos— en nuestra $n$-ésima generación precedente, pero solo son propiamente ancestros genéticos una pequeña fracción de ellos (cuando $n$ es lo suficientemente grande).

Casi todo sobre el ACOS

Alguien vende cachivaches en internet por, p.e., Amazon. El cachivache se vende, digamos, por 10 y Amazon se queda, por ejemplo, con 1. Se ha dado en llamar ACOS a la fracción 1 / 10; de otra manera, al cacho que Amazon se queda de cada compra. ¿A través de qué mecanismo detrae Amazon el ACOS? La cosa es, en términos resumidos, así: El vendedor entra en una puja. Puede decir algo así como que si alguien busca “cachivaches” en Amazon, está dispuesto a pagar hasta 20 céntimos para que Amazon muestre su producto.

Chocolatada informacional

Supongamos que el vector $u$ codifica cierta información A y el vector $v$ (de la misma dimensión), la información B. Hay quien sostiene que, entonces, el vector $u + v$ codifica simultáneamente A y B. En esta entrada voy a demostrar que la afirmación anterior es falsa. Luego, también, que es cierta. Terminaré explicando por qué el asunto es relevante. Que es falsa es obvio: si $u$ y $v$ tienen dimensión 1, $u = 2$ y $v = 3$, a partir de la suma $u + v = 5$ es imposible recomponer los vectores originales.

Organización de proyectos... ¿viejuna?

I. Este blog tiene muchos años. Cuando comencé a escribir en él, la gestión de proyectos de ciencia de datos era un carajal. Muchos de los que se dedicaban a esto organizaban los proyectos en plan TFG: ficheros y tablas con nombres de andar por casa, desorden, código que viajaba en correos electrónicos,… Muchos eran renuentes a utilizar herramientas de control de versiones. Por aquel entonces reinaba —cuando se utilizaba, que era la excepción más que la regla— subversion.

¿Qué precio debería tener una hora de GPU?

Advertencia previa: esta entrada está plusquamcondicionada por la fecha de publicación. Quien aterrice en ella meses o años después, habrá de saber que lo que sigue únicamente tiene, tirando por alto, interés paleontológico. Alguna vez, para mis experimentos, he alquilado una GPU —técnicamente, he contratado una instancia con GPUs—. Por razones que no vienen al caso, —y esto no es una recomendación de compra— mi proveedor habitual para estas cosas es OVH y los precios de las distintas opciones que ofrece pueden consultarse aquí.