Python

Sobre un inesperado factor que convierte subrepticialmente una distribución a priori en informativa

La distribución predictiva a priori es la que se obtiene de un modelo a partir de las prioris, antes de ver datos o realizar ajustes. Se utiliza para evaluar el grado en que las prioris elegidas están dentro de rango y no generan datos que no se parecen en nada a los que se espera por conocimiento previo. El libro Bayesian Modeling and Computation in Python discute las distribuciones predictivas a priori en su segundo capítulo. Allí argumenta alrededor de dos ejemplos. El primero está elegido a propósito para defender el caso de las prioris informativas frente a las objeciones de sus innumerables escépticos. El segundo es más intrigante. Muestra el gráfico ...

¿Acabaremos programando todos en nanolang?

Hace casi un año escribí ¿Acabaremos programando todos en ensamblador?, que comenzaba así: Un lenguaje de programación es un lenguaje que media entre el que nos es familiar a los humanos y el que reconocen las computadoras. Los lenguajes de alto nivel nos resultan más cómodos; los de bajo nivel, más crípticos. Todos conocemos, pienso, el trade-off. Hay lenguajes muy próximos a los humanos, como scratch o logo. Otros, a la máquina, como C o ensamblador. Mucha gente opta por uno en la zona media del espectro, como Python. ...

La regresión logística en sklearn no es la regresión logística sino otra cosa: el problema oculto

La semana pasada escribí una entrada que constaba únicamente de la frase “La regresión logística en sklearn no es la regresión logística sino otra cosa.” repetida muchas veces. El problema es que la implementación que hace scikit-learn de la regresión logística usa, por defecto, l2-regularization, es decir, ridge. Lo cual, en principio, es preferible a la alternativa, es decir, no usar regularización en absoluto; pero usar regularización implica una serie de consideraciones y ajustes por parte del usuario que no siempre se tienen en cuenta. ...

La regresión logística en sklearn no es la regresión logística sino otra cosa

La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa. La regresión logística en sklearn no es la regresión logística sino otra cosa.

El teorema de Napoleón via SymPy

Durante el pasado periodo estival, como es tradición, me extrajeron alevosamente de la M-30. Me introdujeron en una caja metálica, me amarraron a una silla y me torturaron durante seis horas, en el transcurso de las cuales, las únicas percepciones del mundo exterior que impactaron mis sentidos fueron calor, ruido, cerros, pinos y dolores en las asentaderas. Como no había otra cosa que hacer y tenía frescos los enunciados de los problemas de la última olimpiada internacional de matemáticas —que, como recordarán los lectores del blog, tuvo cierto impacto mediático por el excelente resultado logrado en ella por los LLMs más avanzados—, me puse con uno de ellos. Estoy muy pagado de mí mismo por el hecho de que, salvo por un par de cabos sueltos que solo pude rematar cuando conseguí lápiz, papel y silencio, dejé uno de ellos prácticamente resuelto. ...

¿Acabaremos programando todos en ensamblador?

Un lenguaje de programación es un lenguaje que media entre el que nos es familiar a los humanos y el que reconocen las computadoras. Los lenguajes de alto nivel nos resultan más cómodos; los de bajo nivel, más crípticos. Todos conocemos, pienso, el trade-off. Ahora todo el mundo programa en Python. Pero los hay que lo hacen de una manera rara: Hay un nuevo tipo de programación que llamo [Andrej Karpathy] “programación de vibraciones”, en la que te entregas por completo a las vibraciones, adoptas exponenciales y te olvidas de que el código existe. Es posible porque los LLM (por ejemplo, Cursor Composer con Sonnet) se están volviendo demasiado buenos. Además, solo hablo con Composer usando SuperWhisper, por lo que apenas toco el teclado. Pido las cosas más tontas como “reducir el relleno en la barra lateral a la mitad” porque soy demasiado vago para buscarlo. “Acepto todo” siempre, ya no leo los diffs. Cuando recibo mensajes de error, simplemente los copio y pego sin comentarios; generalmente, eso lo soluciona. El código crece más allá de mi comprensión habitual, tendría que leerlo realmente durante un tiempo. A veces, los LLM no pueden corregir un error, así que simplemente busco alternativas o pido cambios aleatorios hasta que desaparece. No está tan mal para proyectos de fin de semana intrascendentes, pero sigue siendo bastante divertido. Estoy desarrollando un proyecto o una aplicación web, pero en realidad no es programación: solo veo cosas, digo cosas, ejecuto cosas y copio y pego cosas, y en general funciona. ...

Una propuesta para cambiar la sintaxis de SQL y cuatro asuntos más

Mesop, una herramienta de Google para crear “AI apps” en Python. ¿Se nos está yendo el tamaño del código JavaScript de las páginas web de las manos? (De cuya lectura, además, he aprendido que existe webpagetest.org, que parece mejor que otras alternativas que he probado por ahí). uv, un gestor de paquetes de Python “extremadamente rápido” escrito en Rust. ¿Tocará volver a migrar? Aquí hay una discusión sobre la diferencia entre lugares y sitios —términos ambos que el artículo enlazado define estipulativamente—. Proyectos como OpenStreetMap se centran en los primeros: coordenadas, sistemas de referencia, mapas, etc. Overture Maps, parece ser, quiere centrarse en los segundos, los sitios, es decir, los bosques, edificios, panaderías, etc. que ocupan el espacio y que son el objetivo —los mapas son solo el medio— de nuestra preocupación por lo que puebla el espacio. ...

Algunas novedades tecnológicas que he recopilado en los últimos tiempos (no todas rompedoramente nuevas)

Últimamente he creado muchos pequeños scripts en Python con parámetros de todo tipo. Tanto esta entrada para los principios generales como, por supuesto, los LLMs más habituales, me han acabado ahorrando horas y horas de trabajo. shelmet, un paquete de Python para interactuar con la shell, está comenzando a aparecer en la cabecera de mis scripts. Estoy creando cada vez más diagramas como parte de la documentación de mis proyectos. Ninguna herramienta es tal como me gustaría, pero la más próxima a la que consideraría ideal que he encontrado por el momento es Excalidraw. ...

Cortos (sobre IA y LLMs, fundamentalmente)

I. Que ssh tenía una puerta trasera (en sus últimas versiones). Está por todas partes, incluido en The Economist. Pasó, se ve, esto: La puerta trasera fue plantada en las XZ Utils. Su principal mantenedor es un tal Lasse Collin, que, se dice, no parece andar muy bien de salud mental. Otro desarrollador, Jia Tan, colaboró en el proyecto durante un tiempo. Finalmente, en febrero, acabó insertando el código malicioso. Se ve que el tal Jia Tan no existe; probablemente, se trate de una identidad falsa manejada por… ¿el gobierno ruso? Véase también esta descripción más técnica y detallada. ...

Más sobre paralelismos entre textos vía embeddings

Retomo el asunto de los paralelismos entre textos, que ya traté aquí, por el siguiente motivo: Estoy explorando las posibilides del RAG Para lo cual es necesario crear una base de datos documental con los fragmentos debidamente embebidos En particular, estoy probando lo que chroma da de sí. Esencialmente, chroma consiste en: Una base de datos (SQLite, de hecho) donde se almacenan los fragmentos, sus metadatos y sus embeddings. Mecanismos para crear los embeddings. Mecanismos para buscar (por similitud de los embeddings) fragmentos relacionados con una petición de búsqueda. Mis experimentos en español han sido catastróficos. La culpa, realmente, no parece ser de crhoma en sí sino de los algoritmos de embedding —se supone que específicos para el español— que he utilizado. Lo que sigue es un resumen de los resultados obtenidos en inglés, que parecen mucho mejores. ...