Carlos J. Gil Bellosta

Discos duros, análisis de la supervivencia y bañeras evanescentes

En el análisis de la supervivencia, el concepto de riesgo está alineado con el general: a más riesgo, mayor probabilidad de evento (o deceso). El riesgo se entiende como función del tiempo, $r(t)$. Su gráfica permite comparar el riesgo en distintos periodos. Si el riesgo es plano, la distribución temporal de los eventos es exponencial. Creo que solo sucede en los libros, sobre todo los que hablan de la radiactividad. ...

Unas cuantas notas sobre LLMs

What Is Man, That Thou Art Mindful Of Him? es un texto satírico en el que se le da la vuelta a los argumentos que se hacen contra la inteligencia de los LLMs y volviéndolos contra los errores de razonamiento que cometemos tan frecuentemente los humanos. Why AI systems might never be secure discute la “tríada letal” (exposición a datos externos, acceso a información privada y capacidad de actuar externamente) que hace de los agentes a los que se confieren las anteriores facultades sistemas intrínsecamente inseguros. En los materiales del curso Stanford CS221 Autumn 2025 de la U. de Stanford, se puede encontrar el párrafo siguiente: ¡Aprende las operaciones básicas de NumPy con un tutor de IA! Usa un chatbot (p.e., ChatGPT, Claude, Gemini o Stanford AI Playground) para aprender por ti mismo cómo realizar operaciones vectoriales y matriciales básicas con NumPy. Los tutores de IA pueden construir hoy en día tutoriales interactivos excepcionalmente buenos y este año, en CS221, estamos investigando cómo pueden ayudarte a aprender los fundamentos más interactivamente que a través de los ejercicios estáticos clásicos. ...

"Sobre las analogías en el derecho (y las matemáticas)" en el Almacén de Derecho

Diríase que por error, han aparecido publicadas unas líneas mías en el Almacén de Derecho. El artículo se titula Sobre las analogías en el derecho (y las matemáticas) y trata de varias cosas: El problema de determinar cuándo un razonamiento analógico es fiable. El problema anterior circunscrito al ámbito del derecho. Cómo lo entiende un matemático que lo contempla desde fuera (y, por supuesto, desde la más absoluta ignorancia en la materia). Es decir, no le va a interesar a nadie. Pero si te pica la curiosidad, no te prives de hacer clic en la cosa.

Unas cuantas notas sobre estadística

Uno de los metaprincipios de la construcción de modelos estadísticos es que la calidad de los modelos es función de la cantidad de información que hay en los datos de entrenamiento. No existe el bootstrap en el sentido etimológico del término: no puede uno levantarse en el aire tirando hacia arriba de los cordones de los zapatos. Pero al hilo de una noticia reciente, Gelman discute si añadir ruido a los datos permite reducir el sobreajuste. Además, en la discusión al respecto, alguien cita el artículo de 1995 Training with Noise is Equivalent to Tikhonov Regularization, una especie de penalización en el tamaño de los coeficientes al modo de la regresión ridge. ...

El mecanismo autocorrector de la ciencia (y el papel del cotilleo)

No sé mucho de filosofía de la ciencia, pero sí de informática. Así que, en cierto modo, soy como aquel tonto del martillo. Pero tal vez la analogía que presento más abajo pueda servirle a alguien. Existe un tipo de bases de datos distribuidas llamadas eventualmente consistentes. La promesa que hacen es que si cambias un dato, al cabo de un periodo de tiempo indeterminado, todas sus réplicas convergirán al mismo valor. Mientras tanto, lecturas de nodos distintos pueden dar resultados distintos y contradictorios. Por ejemplo, los likes de una red social pueden estar almacenados en una de tales bases de datos y puede que un usuario en Tokio vea 34 likes a un vídeo y otro en Madrid, 35. Al cabo de un tiempo ambos acabarán viendo 35 (o puede que 37 y 36: nada está garantizado al 100%). ...

Unas cuantas notas sobre tecnología

Hoy traigo a la atención de mis escasísimos pero selectos lectores una serie de notas que he recopilado en los últimos tiempos porque han llamado mi atención y que he arrejuntado alrededor de la genérica etiqueta de “tecnología”. Una selección de diez librerías de Python para la creación de UIs. Una vez construí una aplicación de Android nativa que mostraba un dashboard en un móvil viejo 24/7. Sudé tinta. Hoy, casi seguro, lo haría en una fracción del tiempo. En Extrapolating quantum factoring se cuenta cómo en 2001 un ordenador cuántico podía factorizar el número 15 y, en 2012, el 21. Luego extrapola, pero eso es lo de menos. Ahora que está de moda medir superficies en “campos de fútbol” no sorprenderá tanto que se utilicen los “litros de agua hirviendo” como indicador de la fortaleza de una clave criptográfica. The Electrotech Revolution: Some insights into a new way of thinking about the transition muestra una visión optimista del futuro en el que la energía es abundante y barata. La parte más interesante es esa en la que se discute cuánta de la llamada energía primaria actual acaba realmente creando trabajo útil (en lugar de, por ejemplo, calor disipado tontamente en la atmósfera). The beauty of batteries es otro artículo optimista que discute cómo el despliegue masivo de baterías puede solucionar muchos de los problemas de nuestros sistemas de distribución eléctrica. Por ejemplo, una estación de energía renovable —y, por lo tanto, de generación irregular— remota necesitaría una conexión eléctrica de menor capacidad (y, por lo tanto mucho más económica) si dispusiese de baterías que le permitiesen evacuar la energía de manera constante a lo largo del día. Muchas ampliaciones de capacidad en determinadas líneas podrían evitarse si, con el concurso de las baterías, la energía pudiera distribuirse de manera mucho más homogénea a lo largo del tiempo. En términos estadísticos, las baterías son dispositivos que transforman los extremos en medias. Tras la electricidad, el agua. How Does the US Use Water? nos habla de esa infraestructura y tecnología que tantas veces damos simplemente por supuesto y en la que apenas paramos mientes.

La regresión logística en sklearn no es la regresión logística sino otra cosa: el problema oculto

La semana pasada escribí una entrada que constaba únicamente de la frase “La regresión logística en sklearn no es la regresión logística sino otra cosa.” repetida muchas veces. El problema es que la implementación que hace scikit-learn de la regresión logística usa, por defecto, l2-regularization, es decir, ridge. Lo cual, en principio, es preferible a la alternativa, es decir, no usar regularización en absoluto; pero usar regularización implica una serie de consideraciones y ajustes por parte del usuario que no siempre se tienen en cuenta. ...

La regresión logística en sklearn no es la regresión logística sino otra cosa

La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa.

Unas cuantas notas sobre ciencia de la mala

Cuando escribo sobre mala ciencia, es un clásico incluir artículos de Radiando, como ¿Cuánta radiación recibimos del 5G?. Soy particularmente sensible al tema porque mi exvecino del sexto, un tal Bardasano, fue uno de los más prominentes defensores de «el móvil nos va a freír los sesos a todos» del reino. Se lo puede leer en acción en artículos como este. Hablé aquí, hace ya casi dos años, de un estudio con 37 sujetos a los que —presuntamente, como se estila en la España constitucional— se les encogía el cerebro. Aquella entrada compartía etiqueta con esta: la de mala ciencia. Ahora, The Economist nos cuenta de manera no irónica How becoming a father shrinks your cerebrum glosando aquel mismo estudio. Tengo el indicador de Gell-Mann aceleradísimo. ...

Sesgo, calibración y variabilidad

Tenemos una población con dos grupos, 50% de cada. Por simplificar, nuestra población son monedas que son de dos tipos: A, con probabilidad de cara del 25%. B, con probabilidad de cara del 75%. Construimos un modelo que predice siempre 50%. Entonces: El modelo está bien calibrado: para aquellos para los que el modelo predice el 50% (que son todos), la probabilidad promedio de cara es del 50%. El modelo tiene sesgo: si nos fijamos en los A, el modelo sobreestima; si nos fijamos en los B, infraestima. El problema es la (falta de) variabilidad. ...