Carlos J. Gil Bellosta

Aunque, por supuesto, en términos abstractos y con, a lo más, una muy tenue relación con hechos de la más rabiosa actualidad en la fecha en que esto se redacta.

Economía

En una sociedad limitada, las decisiones las tienen, en última instancia, los accionistas: la empresa hace lo que decide el +50% del capital social. Así que alguien puede crear una empresa con un capital de $3000 + \epsilon$ euros y usar sus recursos para adquirir una mayoría de control en una de un capital de $6000 + \epsilon / 2$ euros. Luego usar esta para controlar una de $12000 + \epsilon / 4$ euros, etc. y en cierto número de iteraciones, acabar cortando el bacalao en, digamos, Inditex.

Es el tema de este reciente artículo de Gelman. Cabe esperar que algunos se sientan decepcionados porque no tenga solo una página en la que se lea algo así como: usa cuatro cadenas de 4000 iteraciones, 1000 de ellas de warmup. Lo siento: son 26 páginas y sin recetas copy-paste.

Tampoco puedo añadir nada de sustancia a lo que ahí se cuenta. Me voy a limitar a subrayar una idea e ilustrarla con un caso con el que me enfrenté hace unos años.

El lunes día 13 (de noviembre de 2023), a las 17:15, hablaré de sistemas de recomendación como excusa para ilustrar algunos aspectos relevantes y frecuentemente olvidados de la estadística bayesiana. Entiendo que aunque la charla esté dirigida a los estudiantes del grado de ciencia de datos de la Universidad de Oviedo, la asistencia tanto presencial como remota está abierta al público. Entiendo también que la charla se grabará y que quedará disponible.

En una entrada anterior hablé de la curva de Laffer y de la predisposición a trabajar en los últimos meses del año. En esta quiero abundar sobre el asunto ilustrando cómo evolucionan los tipos marginales del IRPF por mes.

Porque la idea de los impuestos progresivos es que pague más no solo en términos absolutos sino también relativos, quien más gane. Pero la gente no tiene todos sus ingresos el día 31 de diciembre sino que los va acumulando a lo largo del año. Al final de enero está todavía en los tramos más bajos del IRPF, así que su IRPF marginal es minúsculo. Pero conforme avanza el año, su IRPF marginal va aumentando.

Los economistas de hogaño tienden a coincidir en no encontrar sustancia detrás de la llamada curva de Laffer. No les quito la razón: ellos saben mejor que yo qué pasa en las casas de los demás. Pero en la mía, Laffer manda.

En los últimos meses del año levanto el pie del acelerador y trabajo mucho, mucho menos. El motivo es fundamentalmente fiscal: mi tarifa bruta por hora es la misma pero el IRPF marginal —en eso consiste la progresividad fiscal— va aumentando mes a mes. Cuando llegan noviembre y diciembre, la tarifa horaria neta queda tan mermada que prefiero dedicar el tiempo a actividades más amenas.

El contexto es, esencialmente, la creación de modelos lineales —no necesariamente los clásicos—, aunque la discusión podría extenderse más allá. Una cosa que nos suelen enseñar los libros es que si en un modelo de la pinta

y ~ t + g

(donde t es un tratamiento y g es algún tipo de grupo) nos da por introducir una interacción (en este caso solo cabe t*g) tenemos necesariamente que incluir los efectos individuales t y g so pena de incurrir en una larga retahíla de pecados estadísticos. La admonición suele venir seguida de una discusión que, admito, nunca he acabado de comprender.

Retomo el asunto de los paralelismos entre textos, que ya traté aquí, por el siguiente motivo:

Estoy explorando las posibilides del RAG
Para lo cual es necesario crear una base de datos documental con los fragmentos debidamente embebidos
En particular, estoy probando lo que chroma da de sí.

Esencialmente, chroma consiste en:

Una base de datos (SQLite, de hecho) donde se almacenan los fragmentos, sus metadatos y sus embeddings.
Mecanismos para crear los embeddings.
Mecanismos para buscar (por similitud de los embeddings) fragmentos relacionados con una petición de búsqueda.

Mis experimentos en español han sido catastróficos. La culpa, realmente, no parece ser de crhoma en sí sino de los algoritmos de embedding —se supone que específicos para el español— que he utilizado. Lo que sigue es un resumen de los resultados obtenidos en inglés, que parecen mucho mejores.

I.

Alguien se queja del BMI (body mass index). Quejarse del BMI es como quejarse de que el agua moja. Porque:

Supongamos que nos interesa un asunto poliédrico (como se decía en tiempos) o multidimensional (más al gusto de los que corren).
La gente quiere medirlo.
Se elige un número —porque a la gente le gusta medir las cosas con un único número, claro— construido de cierta manera.
La gente se queja de que el fenómeno era multidimensional (o poliédrico) y que un solo número no recoge adecuadamente el blablablá.

Una cosa que probablemente aprenderá quien se tome la molestia de revisar el enlace anterior es que:

Toca TimesNet. Se trata de un modelo para la predicción (y más cosas: imputación, detección de outliers, etc.) en series temporales. Tiene que ser muy bueno porque los autores del artículo dicen nada menos que

As a key problem of time series analysis, temporal variation modeling has been well explored.

Many classical methods assume that the temporal variations follow the pre-defined patterns, such as ARIMA (Anderson & Kendall, 1976), Holt-Winter (Hyndman & Athanasopoulos, 2018) and Prophet (Taylor & Letham, 2018). However, the variations of real-world time series are usually too complex to be covered by pre-defined patterns, limiting the practical applicability of these classical methods.

I.

Cuando éramos críos e íbamos al colegio, todos hemos participado en conversaciones que discurrían más o menos así:

— Quiero ver el programa X.
— No puedes porque A, B y C.
— Pero Fulanito lo ve todos los días.
— No te fijes en lo que hace el más tonto; fíjate en lo que hace el más listo.

Los primeros buscadores de internet eran catastróficos. Un día apareció uno nuevo, Google, con una filosofía de madre de los setenta: fijarse en lo que hacía el más listo, no el más tonto. En el fondo, tecnicismos aparte, era en lo que se basaba el PageRank.

Hoy, y sin que sirva de precedente, voy a hablar de economía y política

Economía

¿Cuántas iteraciones necesita mi MCMC?

Charla en la U. de Oviedo sobre sistemas de recomendación con el objetivo de ilustrar aspectos relevantes y frecuentemente olvidados de la estadística bayesiana

La progresividad fiscal: una perspectiva temporal

Dibujar y modelar: ¿en qué se parecen?

¿De dónde vienen las interacciones?

Más sobre paralelismos entre textos vía embeddings

Más allá del BMI

I.

De qué va TimesNet

Cuidado con ChatGPT (advertencia núm. 232923423)

I.