Kaggle

El motivo: retorno esperado negativo

Hay gente a la que recomiendo Kaggle y similares. Otra a la que no.

Con estos últimos suelo razonar alrededor de las ideas contenidas en Why I decided not to enter the $100,000 global warming time-series challenge (versión corta: retorno esperado negativo).

Y no me refiero tanto al monetario explícito del que habla el artículo, por supuesto, sino al otro: el que involucra el coste de oportunidad.

La función de pérdida es una API entre los "stakeholders" de un análisis estadístico

El objeto único de la estadística es informar decisiones.

V.g, si conceder un préstamo, proceder a la quimio, construir una línea de AVE entre Calatayud y Soria o permitir aparcar mañana en el centro de Madrid a los de Móstoles.

Pero quienes toman decisiones y quienes analizan datos suelen ser personas distintas. Típicamente, ni se conocen. Lo cual es tanto pésimo como tema para otra entrada distinta de esta.

Lo fundamental es que estas personas se comunican a través de, metafóricamente, APIs. Unas de las más usadas son los p-valores. Que son tan pésismos como tema para otra entrada distinta de esta.

Diapositivas de "Antikaggle: contra la homeopatía de datos"

He colgado las diapositivas de Antikaggle: contra la homeopatía de datos. Sobre todo, para que aquellos que aún conserven la pasión por saber más puedan visitar los enlaces que recopilé y que figuran en ella.

El vídeo, se dice, aparecerá pronto. Sin él, las diapositivas, puro soporte visual, quedan huérfanas.

Tema, tono y contenid son premeditadamente polémicos; las consecuencias, previsibles. Fe de ello dan los comentarios de los asistentes.

Nueva charla: "Antikaggle: contra la homeopatía de datos"

La impartiré el día 2017-02-10 en el Campus de Google dentro del Machine Learning Spain Meetup y la he resumido así:

Kaggle es una plataforma fantástica. Lo sabemos y nos lo han hecho saber innumerables veces. Esta charla es, sin embargo, una revisión crítica sobre lo que puede enseñar y lo que no; sobre el valor que aporta (entre otros, a los participantes) y el que no y sobre, finalmente, la ciencia de datos y una degeneración suya que ha encontrado en Kaggle otra vía de propagación y que he dado en llamar homeopatía de datos.

Charla de José A. Guerrero

El 9 de julio de 2015, José A. Guerrero dará una charla con título “Machine learning como nuevo deporte intelectual” y programa:

  • Origen y situación actual de las competiciones de Análisis de Datos

  • Análisis predictivo de datos de Alta Competición vs Proyectos en el Mundo Real:

    • Objetivos
    • Estrategias
    • Herramientas
  • Tips and tricks:

    • ¿Qué haría en una competición de datos que nunca haría en un proyecto real?
    • ¿Qué haría en un proyecto real que nunca haría en una competición de datos?

De hecho, el contenido de la última sección es un tema del que he hablado ya sobradamente pero sobre el que me gustaría conocer la opinión del ponente.