Sobre ciencia de datos en UNIR: teoría y gente

Hoy (jueves) he participado en un desayuno de trabajo organizado en la UNIR como pistoletazo de salida a un curso de inteligencia artificial en el que tendré una pequeña participación.

Nos ha tocado presentarnos a todos (había gente de Telefónica, Santander, Mapfre, Siemens, etc.) y según avanzaba la ronda han ido superándose peligrosamente las dosis máximas diarias establecidas por la OMS para la el impacto auditivo de palabras tales como disruptivo, futuro, innovación, coche autónomo, fabuloso y nosotros.

Creo que habrá vídeo en alguna parte. Por si no, transcribo lo que (recuerdo que) he dicho:

Buenos días. Me llamo Carlos Gil y esta mañana he venido en metro. Cada vez que cojo el metro me sorprende y me irrita comprobar que todavía tiene un señor que lo conduce.

Cada vez que que hay un accidente de tren o un conductor dice que está cansado y deja al pasaje varado en una estación de un pueblucho de Palencia, dejo constancia en Twitter de lo primitivo de tener humanos al mando de trenes. Pero eso me hace ganar pocos amigos.

Sin embargo, a nadie sorprende ni asusta que tantos fabricantes de software nos prometan herramientas para automatizar la visualización de datos o su análisis estadístico. La misma expresión machine learning es irritante. No, las máquinas no aprenden; a las máquinas se las enseña (muy trabajosamente) y yo soy uno de esos que se gana la vida enseñando cosas a las máquinas.

Todo el mundo habla de muchas cosas, pero siempre omiten dos: teoría y gente. Estamos en una universidad y es el sitio para hablar de teoría, aunque vengamos de empresas. Mañana iré a la Carlos III y allí sí que discutiré si es relevante o no enseñar la integral de Lebesgue a un alumno de un máster de ingeniería matemática. Pero aquí sí me veo obligado a insistir en el discurso contrario.

Habéis hablado de modelos actuariales pero cada vez que hablo con un colega actuario, me cuenta que usan GLM. ¡GLM! Esos son modelos de 1972. Yo aún no había nacido. ¿No se ha hecho nada nuevo desde que llevo sobre la faz de la tierra? Habéis hablado de segmentación de clientes; pero seguro que habéis usando k-medias, que es un algoritmo que tiene sesenta años o más.

Del otro lado, están los script kiddies, gente que se encuentra modelos avanzados empaquetados (llámense redes neuronales o xgboost) y lo aplican ciegamente, como pollos sin cabeza.

La teoría es importante.

Por otro lado está la gente. Las empresas no sabéis cuidar a esta gente que tiene nuevos perfiles, que son creativos. Los ahogáis en burocracia, no les dejáis respirar. Habéis contado que Francisco González, el otro día, dijo que BBVA era una empresa tecnológica. Pues bien, en BBVA, hasta hace cuatro días, el ordenador plataformado que daban a los científicos de datos tenía la versión 1.4 de la máquina virtual de Java, que es como de 2005. ¿Es eso propio de una empresa tecnológica?

Los nuevos perfiles son centauros. Las mejores partidas de ajedrez no las juegan personas; pero tampoco máquinas. Las mejores partidas de ajedrez las juegan equipos híbridos hombre-máquina. Esa combinación hombre-máquina es la que liderará este movimiento del que estamos hablando.

Y he terminado con una breve mención a Circiter, pero esa es una historia que mejor guardo para dentro de un par de semanas.