Estadística

Notas varias sobre estadística y temas afines

  • Turning trig identities into Fibonacci identities muestra cómo ciertas identidades trigonométricas pueden transformarse de forma sistemática en identidades que involucran números de Fibonacci (y de Lucas). El motivo es que la estructura algebraica de las funciones trigonométricas involucra ciertas relaciones recurrentes, vinculándolas con los números de Fibonacci.

  • A quote from Nicholas Carlini sobre los LLMs y las extorsiones en la que describe cómo podrían ser las extorsiones del futuro. Ya no será “te robo los datos y me tienes que pagar para que te los devuelva” sino “usando un LLM sobre tus datos hemos encontrado indicios de ciertas actividades que, casi seguro, preferirías no fuesen conocidas por otros y nos tendrás que pagar para que no se las revelemos”.

Sobre la sentencia del caso Bosco y algunos otros asuntos más

  • The fate of “small” open source presenta un probable estado futuro del mundo del desarrollo de software, uno en el que los pequeños proyectos dejen de ser relevantes porque sus potenciales usuarios pueden reemplazarlos perfectamente por código ad hoc generado por LLMs. En efecto, hace años creé un paquete mínimo de R con apenas un par de funciones que implementaban ciertas pruebas estadísticas no disponibles en ningún otro por aquel entonces. En 2025 no haría falta ese paquete: bastaría con pedirle a Claude una implementación en R, copiarla y pegarla. El autor del artículo enlazado se queja de que algo se perderá en el proceso; yo creo que es algo por lo que no vale la pena llorar.

Unas cuantas notas sobre estadística, teoría y de la decisión y otras cuestiones

Un artículo sobre cómo crear intervalos de predicción conformes en modelos de ML, en particular con modelos basados en XGBoost. Y otro, este, sobre cómo inferir el tamaño muestral a partir de su anchura.

También de John D. Cook, ODE to Fisher’s transform. Aparentemente, para normalizar el coeficiente de correlación se puede aplicar una transformación en la que interviene atanh y cuya derivación exige resolver una ecuación diferencial ordinaria. Por su parte, la ecuación diferencial surge de igualar el desarrollo de la curtosis a cero.

Unas cuantas notas sobre estadística

Uno de los metaprincipios de la construcción de modelos estadísticos es que la calidad de los modelos es función de la cantidad de información que hay en los datos de entrenamiento. No existe el bootstrap en el sentido etimológico del término: no puede uno levantarse en el aire tirando hacia arriba de los cordones de los zapatos. Pero al hilo de una noticia reciente, Gelman discute si añadir ruido a los datos permite reducir el sobreajuste. Además, en la discusión al respecto, alguien cita el artículo de 1995 Training with Noise is Equivalent to Tikhonov Regularization, una especie de penalización en el tamaño de los coeficientes al modo de la regresión ridge.

¿Nos podemos fiar de los barómetros del CIS?

El CIS publicó recientemente los resultados de su barómetro de septiembre de 2025 basados en 4122 entrevistas.

Una de las preguntas realizadas, la primera, fue

Durante los últimos doce meses, para realizar sus gestiones bancarias, ¿qué tres canales principales ha utilizado Ud.? Dígamelos por favor por orden, según frecuencia de uso.

Los resultados obtenidos fueron

Otra que se realiza en todos los barómetros se refiere a la participación y recuerdo de voto en las últimas elecciones generales, las de 2023 en este caso. Los resultados obtenidos fueron

Un patrón habitual del uso de la estadística en determinadas aplicaciones de las llamadas ciencias sociales

Existen asuntos sobre los que uno lee que se parecen a la situación que describo a continuación:

  • Estamos en Zaragoza y caminamos 1 km en dirección noreste.
  • Estudiamos si nos hemos alejado de manera estadísticamente significativa de Madrid.
  • Unos dicen que sí; otros, que no. Al fin y al cabo, ¿dónde está Madrid? Hay cierta incertidumbre (¿Sol? ¿Límite del municipio? ¿Puerta de Alcalá?) con una variabilidad mayor que el kilómetro recorrido.
  • Todo el mundo arrima el ascua a su sardina y, al final, nadie sabe nada.

Uno puede así caminar un kilómetro, luego otro, y luego otro más sin que ninguna caminata sea estadísticamente significativa. Puede uno plantarse finalmente en Barcelona sin haberse alejado jamás significativamente de Madrid.

Sobre la construcción de problemas sociales (y el papel de la estadística en el proceso)

El otro día estaba oyendo la radio. Además, una emisora inhabitual (para mí, aunque me consta que es popular en algunos círculos) que, diríase, se había sintonizado sola. En el programa en cuestión, la locutora y sus adláteres estaban tratando de construir yet another problema social. Pero tan mal que, por si me leen, he escrito cómo hacerlo mejor. Y también porque quien lea de la mitad para abajo descubrirá aspectos de la cosa que entroncan con el asunto general de estas páginas, la estadística.

Diagramas de Lexis

Me ha parecido conveniente desgajar la propedéutica de algo con lo que continuaré más adelante: la introducción a los diagramas de Lexis. Es obligado señalar que alrededor de ellos concurre una serie de hechos que debiera dar mala espina a los buenos entendedores:

  • En la Wikipedia, en la fecha en la que esto se escribe, la voz está disponible solo en seis idiomas: catalán, francés, inglés, italiano, portugués y vascuence.
  • Además, el concepto está mucho más ampliamente desarrollado en francés que en inglés.

Estas evidencias le deben inducir a uno a pensar que se trata de un concepto viejuno, inútil y solo relevante para opositores. Quien albergue esas sospechas no andará del todo desencaminado. Pero quiero asegurarle también que me consta fehacientemente que:

Gráficas de sesgo vs gráficas de calibración y algunas notas más sobre estadística

Si los datos en tratamiento tienen más varianza que los datos en control, ¿deberías sobrerrepresentar alguno de los grupos en el experimento? La respuesta es sí: deberías sobrerrepresentar el grupo de tratamiento.

El principio de la piraña: dado que el mundo observable es razonablemente predecible, una de dos:

  • o bien no hay demasiados factores grandes independientes operando causalmente,
  • o bien estos factores grandes interactúan negativamente entre sí de manera que se cancelan mutuamente.

Cita Jessica Hullman un parrafito de un artículo de Cornfield y Tukey (sí, ese Tukey) que traduzco aquí:

Estadística vs aprendizaje automático y algunos asuntos más

Cuando comparo valores reales contra estimados/predichos, tengo la costumbre de colocar los valores observados en el eje horizontal y las predicciones en el vertical. Así puedo ver si yerro por exceso o por defecto (con respecto a la línea, típicamente roja, $y = x$). Sin embargo, tanto en este artículo como en esta entrada de blog, se argumenta en favor de lo contrario.

Hay una diferencia sustancial entre el bayesianismo abstracto y el aplicado (o computacional): el primero siempre habla de aprendizaje secuencial y de encadenamiento de posterioris: la posteriori de un primer estudio con unos datos parciales se convierte automáticamente en la priori de uno posterior con un conjunto de datos adicional. En la versión práctica, solo es posible en ciertos casos concretos (p.e., cuando hay distribuciones conjugadas) pero no en general. En general uno obtiene una descripción de la posteriori en términos de una serie de muestras que no hay forma de utilizar después como priori. Sin embargo, pasan cosas como esta o esta