Ciencia de datos 1.0 vs ciencia de datos 2.0

[Mil perdones por utilizar el término ciencia de datos; lo he hecho por darme a entender sin enredarme en distingos.]

[Mil perdones por (ab)usar (de) la terminología X.0; de nuevo, lo he hecho por darme a entender sin enredarme en distingos.]

Todo es un caos y llega alguien con una idea paretiana. Por ejemplo, esta (que es la que ha motivado esta entrada). La idea paretiana puede ser usar regresión logística sobre un subconjunto de variables que tienen sentido; o automatizar una serie de reglas duras (sí, unos cuantos ifs) que la gente que conoce el asunto saben que funcionan sí o sí. Etc. En resumen, cosas simples, sólidas y efectivas.

Tal es la ciencia de datos 1.0.También conocida como recoger la low hanging fruit. Que, contra la opinión generalizada, dista mucho de estar ya recogida.

Mejorar esos sistemas y modelos 1.0 será (o está siendo) duro. Solo pocas entidades, las que tengan un volumen suficiente, podrán tal vez compensar los costes fijos de la ciencia de datos 2.0 (sí, la de las técnicas y tecnologías molonas) con la mejora de eficiencia, si alguna, que supongan con respecto a las de la generación anterior.

Nota final: Muchos hablan de la burbuja de la ciencia de datos y del miedo que tienen a que se pinche. Y yo añado: pinchará en el momento en el que comience a ser incuestionable que la realidad de la ciencia de datos 2.0 en muchas ocasiones queda muy por debajo de las expectativas que algunos generan.