Representados pero no representativos

La expresión que da título a la entrada procede de un escrito de Andrew Gelman. Aunque se refiere a un problema estadístico muy concreto, la he podido aplicar en otros contextos. Es uno de esos conceptos que una vez uno tropieza con él, no puede dejar de verlo en todas partes. Gelman se refería originalmente al problema de la reponderación de las encuestas. Desafortunadamente, por muy aleatorio que sea su diseño, terminan mostrando sesgos. Por no hablar de las que se realizan en periódicos, Twitter, etc. Existen técnicas que, según la teoría, mitigan en cierta medida el problema y permiten realinear mejor o peor sus resultados con la realidad. Para ilustrar el uso de una de estas técnicas, Gelman et al. realizaron una encuesta extrema en los foros de un videojuego con el objetivo de determinar si a partir de la opinión de un conjunto de gamers, podría reconstruirse la general e ilustrar, de paso, una serie de técnicas de su autoría. ...

30 de julio de 2025 · Carlos J. Gil Bellosta

Nostalgia de Nelson-Siegel

La noticia del artículo Beyond Nelson-Siegel and splines: A model-agnostic Machine Learning framework for discount curve calibration, interpolation and extrapolation, me ha hecho volver a pensar un poco en aquel viejo modelo, al que le guardo cierta simpatía por dos motivos. El primero y más personal, que me hizo ganar un poco de dinero tiempo atrás: implementé hace muchos años una serie de scripts en SAS para ajustarlo. El cliente final, si recuerdo bien, era el Banco de España. ...

23 de julio de 2025 · Carlos J. Gil Bellosta

Post-bayesianismo, una microintroducción

Hace muchos años leí Tackling the Poor Assumptions of Naive Bayes Text Classifiers. Es un artículo que viene a decir que, efectivamente, el método del naive Bayes es muy útil en NLP, un clasificador que se construye a partir de primeros principios y se puede usar directamente, tal cual viene en la caja, para obtener resultados decentes. Sin embargo, la experiencia indica que el método, en la práctica, funciona mejor si se lo somete a una serie de cambios ad hoc. Con estas modificaciones, el clasificador resultante guarda cierta similitud con respecto al original: cambia la priori por otra cosa que se le parece pero que no es igual; cambia la verosimilitud por otra cosa que es, de nuevo, parecida pero no exactamente la misma, etc. Pero funciona algo mejor en la práctica. Es decir, que aquello que se construye desde primeros principios puede verse superado por una versión tuneada. ...

16 de julio de 2025 · Carlos J. Gil Bellosta

Sobre la construcción de problemas sociales (y el papel de la estadística en el proceso)

El otro día estaba oyendo la radio. Además, una emisora inhabitual (para mí, aunque me consta que es popular en algunos círculos) que, diríase, se había sintonizado sola. En el programa en cuestión, la locutora y sus adláteres estaban tratando de construir yet another problema social. Pero tan mal que, por si me leen, he escrito cómo hacerlo mejor. Y también porque quien lea de la mitad para abajo descubrirá aspectos de la cosa que entroncan con el asunto general de estas páginas, la estadística. ...

9 de julio de 2025 · Carlos J. Gil Bellosta

Diagramas de Lexis

Me ha parecido conveniente desgajar la propedéutica de algo con lo que continuaré más adelante: la introducción a los diagramas de Lexis. Es obligado señalar que alrededor de ellos concurre una serie de hechos que debiera dar mala espina a los buenos entendedores: En la Wikipedia, en la fecha en la que esto se escribe, la voz está disponible solo en seis idiomas: catalán, francés, inglés, italiano, portugués y vascuence. Además, el concepto está mucho más ampliamente desarrollado en francés que en inglés. Estas evidencias le deben inducir a uno a pensar que se trata de un concepto viejuno, inútil y solo relevante para opositores. Quien albergue esas sospechas no andará del todo desencaminado. Pero quiero asegurarle también que me consta fehacientemente que: ...

26 de junio de 2025 · Carlos J. Gil Bellosta

¿Reemplaza pxmake a pxR? Espero que sí (y, además, que ninguno de los dos haga falta pronto)

De pxR ya he hablado alguna vez. Pueden verse las entradas que le he dedicado aquí. pxR es un paquete coral de R que promoví, en el que escribí la mayor parte del código y que aún mantengo muy renuentemente. Permite leer y crear ficheros con el formato px, que utilizan todavía algunos servicios de estadística pública por el mundo. Eso no quita que “antediluviano” sea el adjetivo que mejor lo describe: fue creado antes de la popularización de los formatos modernos y, no en vano, la última de las entradas que le dediqué allá por 2023 se titulaba ¿Dejar morir pxR? ...

22 de mayo de 2025 · Carlos J. Gil Bellosta

Más sobre la relación entre la dispersión de las probabilidades y el AUC en modelos bien calibrados

Esta entrada está relacionada —aunque no es estrictamente una continuación— de la que escribí hace una semana sobre el mismo asunto. El punto de partida es el mismo: un modelo de clasificación binaria bien calibrado. Eso significa que si el modelo predice $p$ para el sujeto $i$, entonces $Y_i \sim B(p)$. Supongamos que tenemos una población dada, aplicamos el modelo y obtenemos una distribución $f(p)$ para las probabilidades predichas. Entonces, la distribución de: ...

24 de abril de 2025 · Carlos J. Gil Bellosta

Sobre la relación entre la dispersión de las probabilidades y el AUC en modelos bien calibrados

Supongamos que estamos construyendo un modelo de clasificación binaria. Supongamos que está bien calibrado, es decir, que cuando predice una probabilidad $p$ de éxito para un sujeto $i$, entonces es cierto que $Y_i \sim \text{Bernoulli(p)}$. Por otro lado, pensemos en el AUC, que es muchas cosas, pero entre ellas, $$ AUC=Pr(p_i >p_j | Y_i =1,Y_j =0),$$ es decir, la probabilidad de que, tomando dos sujetos al azar, uno positivo, el $i$ y otro negativo, el $j$, $p_i > p_j$. ...

17 de abril de 2025 · Carlos J. Gil Bellosta

Multiplicidad de modelos, multiplicidad de explicaciones: algunas consecuencias

Hay cosas obvias en las que uno no repara hasta que ve que otro les apunta con el dedo y les da un nombre. Luego no deja de verlas por doquier. Una de ellas es la de la diversidad de explicaciones. Escribí sobre ella el otro día. Decía allí (citando un artículo de B. Ripley): Si buscamos un modelo explicativo, deberíamos tener presente que puede haber varios modelos explicativos (aproximadamente) igual de buenos: lo aprendí […] tras haber hecho muchas selecciones informales de modelos en problemas aplicados en los que me hubiera resultado útil haber podido presentar soluciones alternativas. ...

10 de abril de 2025 · Carlos J. Gil Bellosta

Isosemanas

Muchos fenómenos tienen una periodicidad intrínsecamente semanal (p.e., el tráfico). Eso puede motivar el uso de la semana como unidad temporal de referencia en determinados análisis en lugar del mes o el día. Existe gente que tal vez no esté al tanto de que existe un estándar ISO para definir y representar las semanas sin ambigüedad, el ISO 8601. Sus principales características son: Las isosemanas comienzan el lunes y terminan el domingo. Se representan con el formato YYYY-Www (p.e., 2025-W10 para la décima semana de 2025) La primera isosemana del año es la que contiene el primer jueves del año. Un año contiene típicamente 52 isosemanas, aunque algunos (entre ellos, 1903, 1908, 1914, 1920, 1925, 1931, 1936, 1942, 1948, 1953, 1959, 1964, 1970, 1976, 1981, 1987, 1992, 1998, 2004, 2009, 2015, 2020, 2026, 2032, 2037, 2043, 2048, 2054, 2060, 2065, 2071, 2076, 2082, 2088, 2093, 2099) contienen 53. Hoy en día no merece la pena que indique cómo calcular ni manipular isosemanas en los lenguajes de programación más usuales: casi cualquier LLM lo sabe y lo puede ayudar a uno a crear funciones como ...

13 de marzo de 2025 · Carlos J. Gil Bellosta