Unas cuantas herramientas tecnológicas

Modelos directamente en base de datos

Sería muy cómodo poder correr modelos estadísticos directamente en la base de datos, sin tener que realizar costosas y problemáticas extracciones de datos. Rebuscando, he encontrado entradas de hace catorce años sobre el asunto en estas páginas (esta), de la época en que a eso se lo llamaba in-database analytics y se suponía que era el motivo de la entonces esperada fusión de SAS y Teradata.

Una nueva iteración sobre la misma idea es orbital, que se autodescribe así en CRAN:

Convierte flujos de “tidymodels” en objetos que contienen la suficientes ecuaciones secuenciales como para realizar predicciones. Esos objetos más pequeños permiten realizar predicciones con menos dependencias localmente o directamente sobre bases de datos.

La historia nos enseña que hay modelos y operaciones que permiten ese tipo de integración de manera natural y otros en los que es prácticamnte imposible. O se limita uno a una estrecha selección de modelos cubiertos por la herramienta o… pasará lo mismo que con el resto de las iniciativas anteriores.

Monitorización de modelos en produccióń

No lo he probado, pero eso es lo que dice la etiqueta de vetiver.

Z3

Si tienes tiempo, échale un vistazo a los problemas que Z3 puede resolver. Puede pasar que nunca te hayas enfrentado a ninguno de ellos y que pienses que no vale la pena indagar más. Pero es posible que descubras que pudiera haberte salvado la vida en algún momento.

Otro “santo grial” de la ciencia de datos

Además del del in-database analytics, otro de los santos griales eternamente perseguidos por ciertos sectores de la ciencia de datos es el de la creación de un sistema al que se le echan datos y realiza análisis estadísticos automáticos con todas las de la ley/ciencia. Lace es una nueva iteración de ese proyecto. Leí la documentación con cierto detenimiento pero aún no he podido averiguar qué modelo utiliza para construir la verosimilitud de la que trata reiteradamente. Si alguien lo averigua, le agradecería que nos informase tanto a mí como al resto en los comentarios.

BM25

Aquí se explican las matemáticas del Okapi BM25, una fórmula usada para estimar la relevancia de los documentos obtenidos en una búsqueda y que tiene esta pinta:

BM25