Introducción a la probabilidad y la estadística para científicos de datos
2022-12-24
Introducción
En 2008, Hal Varian, economista jefe de Google por aquel entonces, afirmó que la estadística iba a ser la profesión más sexy de la siguiente década. Efectivamente, la explosión de la ciencia de datos1 ha atraído a profesionales de las más diversas procedencias —estadísticos y matemáticos, sí, pero también ingenieros, informáticos, economistas,…— que han reorientado hacia ella sus carreras. Muchos de ellos, sin embargo, encuentran carencias en su formación en todo lo que se refiere a uno de los pilares sobre los que se sostiene la disciplina: la relativa a sus fundamentos estadísticos y probabilísticos.
A ellos se dirige este libro.
Las peculiaridades de su público explican algunas de las páginas que siguen. Por ejemplo, en ellas no se encontrará ni rigor, ni ortodoxia ni autocompletitud. El rigor, entendido como la demostración logico-matemática de los distintos enunciados a partir de los principios axiomáticos más básicos es —recordemos que somos gente seria— una pérdida de tiempo. En el libro y en la medida de lo posible, serán reemplazados por argumentos que justifiquen el porqué y, sobre todo, el para qué.
Si por ortodoxia se entiende ese corpus sacrosanto que arranca con los gráficos de tarta de los libros de primaria, pasa por las Estadísticas I y II de nuestras otrotra licenciaturas y encuentra su más perfecto culmen en el temario de las oposiciones del INE, la opinión del autor es que debería ser cuidadosamente depositado en ese sepulcro del Cid que su paisano quería sellar con doble cerrojo. Uno de los temas del libro es que muchos de los resultados que históricamente han venido a conformar el currículo están caducos. Las culpables no son otras que esas herramientas tan ubicuas que son los ordenadores. Además, el autor ha tratado de purgar del texto todo contenido tradicional y presuntamente relevante que ni a él ni a nadie que conozca le haya servido jamás para facturar un euro a lo largo de sus años de ejercicio.
Además, el libro rehúye toda aspiración de autocompletitud. El autor la considera un atavismo de la época pre-hiperenlaces. ¿Es necesario reelaborar contenido que está mejor escrito a apenas un click de distancia? No. Lo que el lector encontrará son conceptos y técnicas útiles en su quehacer en el mundo de la ciencia de datos, algo más parecido a una guía de campo que a una enciclopedia, algo que, en definitiva, haga bueno el apotegma de otro paisano del autor: lo bueno, si breve…
Finalmente, el libro está concebido como una obra viva, en permanente estado de perfeccionamiento. El autor agradecerá y hará lo posible por incorporar aquellas mejoras y subsanar aquellos errores de los que sus lectores tengan la amabilidad de darle noticia.
Al autor no le gusta la el término ciencia de datos pero la asumirá y utilizará a lo largo del libro en su interpretación más habitual.↩︎