R | Carlos J. Gil Bellosta

Notas (18): «pipelines» en R de todos los colores y algunas otras cosas más

Intersecting spheres and GPS explica los principios matemáticos del GPS y, en particular, el del cálculo de la intersección de esferas. Que, además y contrariamente a la primera intuición, puede reformularse como la solución de un sistema de ecuaciones lineales. Todos los días aprendes un poquito más de bash.. Y también sobre cómo hacer para que los distintos módulos de una aplicación en shiny compartan datos. Guillermo Luijk sigue regalándonos artículos en la intersección de la fotografía, la geometría y R: ...

Notas (14) sobre LLMs: apuntes sobre publicaciones recientes

El autor del paquete revss de R para el análisis estadístico de muestras pequeñas, anuncia una actualización importante explicando en particular el uso de LLMs para reescribir el motor de cálculo en Fortran y C, optimizando el rendimiento de manera significativa. No todo va a ser slop. Semianalysis se pregunta si los centros de datos de la IA van a incrementar el precio de la electricidad para los hogares de los EEUU y mediante un análisis comparativo concluye que las subidas de precios que se observan en ciertas regiones se deben más a errores en el diseño del mercado y a los problemas que supone la planificación centralizada que a la demanda de estos nuevos consumidores. ...

«Peak population» por municipios

El otro día me entretuve en crear tras ver en Twitter. Muestra, municipio a municipio, el año (censurado por la izquierda en 1996) en el que se alcanzó la población máxima de acuerdo con los datos del padrón. Notas: Como he dicho, la API del INE solo ofrece datos de los últimos 30 años. Los datos anteriores, quién sabrá dónde estarán. He usado el término censura en su acepción estadística. No me he entretenido en representar Canarias. Lo siento. Gran parte del código ha sido desarrollado por Claude. Claude ha sabido, de hecho, identificar la llamada a la API del INE necesaria para bajar los datos correspondientes. El INE ha puesto a disposición de los usuarios un paquete, ineapir que facilita la descarga de datos de sus APIs. Bien. Los límites de los municipios los he bajado en formato GeoJSON del portal del Instituto Geográfico Nacional. Y el código, a continuación (por si alguien quiere seguir jugando con él). ...

Notas (9): Algunos enlaces y comentarios sobre temas estadísticos

Mills ratio and tail thickness — John D. Cook nos habla de la razón de Mills ($\int_x^\infty f(t) dt / f(x)$) para estudiar el grosor de las colas de las distribuciones de probabilidad. Por ejemplo, aunque una distribución t con muchos grados de libertad es muy similar a una normal en la parte central, la razón de Mills las distingue claramente por su distinto comportamiento en las colas. What is “workflow” and why is it important? — Sobre el flujo de trabajo del análisis de datos (con inspiración bayesiana), según Andrew Gelman (y sus coautores). R Workflow es la reinterpretación de Frank Harrell del mismo asunto. ...

Sobre un inesperado factor que convierte subrepticialmente una distribución a priori en informativa

La distribución predictiva a priori es la que se obtiene de un modelo a partir de las prioris, antes de ver datos o realizar ajustes. Se utiliza para evaluar el grado en que las prioris elegidas están dentro de rango y no generan datos que no se parecen en nada a los que se espera por conocimiento previo. El libro Bayesian Modeling and Computation in Python discute las distribuciones predictivas a priori en su segundo capítulo. Allí argumenta alrededor de dos ejemplos. El primero está elegido a propósito para defender el caso de las prioris informativas frente a las objeciones de sus innumerables escépticos. El segundo es más intrigante. Muestra el gráfico ...

Notas (8): código generado por humanos, código inspirado por humanos

Jeff Soules dio una charla sobre buenas prácticas de programación (particularmente acerca de técnicas para mejorar la legibilidad del código) y publicó las correspondientes diapositivas. Guillermo Luijk siempre escribe cosas interesantes. De entre sus últimas: Optimizando el paseo de perros con R Distribuciones normales en la torre de Pisa Perspectiva aérea desde mapa de elevaciones con C++ A Software Library with No Code describe un experimento que muchos considerarán distópico: usando LLMs, se pueden crear y compartir abstracciones reutilizables; en este caso concreto, descripciones detalladas sobre cómo debería funcionar una determinada librería pero sin escribir una sola línea de código tradicional. El usuario de esta metalibrería utilizaría un LLM para obtener una implementación en el lenguaje objetivo de su elección: Python, etc. Hay gente que utiliza LLMs para portar librerías de un lenguaje a otro; esta metalibrería representa un pequeño nivel adicional de abstracción: la descripción de lo que ha de hacer no está descrita en código sino en instrucciones verbales precisas e interpretables por los LLMs. Habría que ver si el lenguaje natural es preferible a código —que es una forma concreta de seudocódigo— para describir lo que se espera de la librería; porque lo que se espera de este (del código) es que sea más específico y menos ambiguo que aquel (el natural) a la hora de describir algoritmos fielmente.

Reconstrucción de una distribución a partir de un histograma

Un viejo amigo me escribe y me propone (simplificándolo) el siguiente problema: Tengo una normal de parámetros desconocidos. De ella solo dispongo de un histograma. ¿Cómo puedo reconstruir la normal original? Es decir, ¿cómo puedo estimar los $\mu$ y $\sigma$ originales? En el caso concreto, la normal tiene una media próxima a 255 y los valores del histograma proceden de una muestra suya redondeada al entero más próximo. Aquí va mi solución. ...

Una nota sobre la simulación por el método del rechazo

El otro día publiqué un pequeño fragmento de código, a <- 2.89 b <- 36.81 sample_dist <- function() rbeta(1, a, b) sample_p <- function(y){ candidate <- sample_dist() my_sample <- runif(1) if (y == 1) if (my_sample < candidate) return(candidate) if (y == 0) if (my_sample < 1 - candidate) return(candidate) sample_p(y) } p1 <- replicate(100000, sample_p(1)) p0 <- replicate(100000, sample_p(0)) auc <- mean(p1 > p0) auc que había usado antes aquí, para muestrear unas distribuciones relacionadas con el cálculo del AUC en modelos perfectamente calibrados. Lo había escrito meses atrás y supongo que me pasó como a la mayoría de mis lectores: darlo por bueno primero y usarlo después suponía todo un acto de fe (en mí, además). ...

Unas cuantas notas sobre estadística, teoría y de la decisión y otras cuestiones

Un artículo sobre cómo crear intervalos de predicción conformes en modelos de ML, en particular con modelos basados en XGBoost. Y otro, este, sobre cómo inferir el tamaño muestral a partir de su anchura. También de John D. Cook, ODE to Fisher’s transform. Aparentemente, para normalizar el coeficiente de correlación se puede aplicar una transformación en la que interviene atanh y cuya derivación exige resolver una ecuación diferencial ordinaria. Por su parte, la ecuación diferencial surge de igualar el desarrollo de la curtosis a cero. ...

¿Reemplaza pxmake a pxR? Espero que sí (y, además, que ninguno de los dos haga falta pronto)

De pxR ya he hablado alguna vez. Pueden verse las entradas que le he dedicado aquí. pxR es un paquete coral de R que promoví, en el que escribí la mayor parte del código y que aún mantengo muy renuentemente. Permite leer y crear ficheros con el formato px, que utilizan todavía algunos servicios de estadística pública por el mundo. Eso no quita que “antediluviano” sea el adjetivo que mejor lo describe: fue creado antes de la popularización de los formatos modernos y, no en vano, la última de las entradas que le dediqué allá por 2023 se titulaba ¿Dejar morir pxR? ...