¿Por qué no una competición?
Después de haber hablado de competiciones de minería de datos, participado en una con mediano éxito y entrado en contacto con sus organizadores a raíz de eso, escribo para pulsar la opinión de mis lectores acerca de si es plausible que en un futuro empresas y organizaciones varias vean como una opción viable para resolver sus problemas analíticos el plantearlos como una competición abierta a quien quiera participar en ella.
Marcin Wojnarski, del equipo que gestiona TunedIT, la plataforma sobre la que se organizó la competición a la que me refiero, me hizo llegar un documento en el que se enumeran las ventajas que supondrían para las empresas este tipo de competiciones sobre el método tradicional de afrontar las tareas analíticas. Obviamente, enumera las ventajas, que son muchas, manifiestas y muy de mi particular parecer. También, en comunicación personal (y por eso no los hago públicos), me ha participado los costes que tendría para una empresa organizar una competición a través de su plataforma.
Por otra parte y para que sirva de contrapunto contextualizador, quiero hacer constar acá las tres mayores objeciones que, a mi entender, padecería una iniciativa tal en nuestra singular coyuntura espacio-temporal:
- La privacidad de los datos. A pesar de que los datos quedarían perfectamente anonimizados, las compañías son tremendamente paranoicas al respecto. Y esos abogados tan carpetovetónicos que tienen… ¡parecen todos de mi tierra!
- Los intermediarios, las mismas compañías consultoras que deberían asesorar en el proceso: ¡perderían dinero de plantear una competición de ese tipo! Su fuente de ingresos consiste en encorbatar a un recién licenciado, pagarle 1.000 euros al mes y cobrar por él cientos de euros diarios al cliente final. ¿Renunciarían motu propio a su vaca lechera?
- Que sólo un porcentaje de los problemas de análisis de datos que uno encuentra en la práctica pueden ser planteados en un formato de competición. Usualmente, no hay un conjunto de datos de partida bien definido. Además, estos datos suelen presentar muchos problemas de calidad y consistencia. Y no existe una función simple que mida el grado de validez de los modelos. ¡En muchas ocasiones el principal problema de uno de estos proyectos consiste en definir claramente el problema mismo que se quiere resolver!
Siento infinita curiosidad por conocer el parecer de mis lectores (que están invitados todos a hacérnosla conocer al resto en los comentarios).