Charlas

Charla (mía) el día de pi (de 2019) en Elche

Los detalles logísticos, en

Hablaré de lo de casi siempre: que pese a los cantos de sirena que se oyen en la profesión (predecir por encima de todo, xgbost es el único dios y caret su profeta, etc.) existen muchos problemas reales (de los que dan de comer) donde es necesario modelar la estructura subyacente de los datos con mucho mimo. Eso más la descripción detallada de un proyecto bastante sofisticado en el que ando metido.

Charla: predicciones y decisiones, más allá de los errores cuadráticos

El próximo 29 de noviembre (de 2018) de febrero daré una charla dentro del ciclo de Data Konferences de Kschool.

Para la mía han creado el siguiente cartelito:

El resumen que preparé es:

Se hace ciencia de datos para tomar decisiones. Las predicciones, mejores o peores, alimentan procesos de decisión (p.e., ¿se concede este préstamo?). Sin embargo, existe una brecha enorme (en términos de equipos responsables y de comunicación entre ambos) entre quienes construyen los procesos predictivos y quienes toman las decisiones finales. A falta de mejor criterio, los científicos de datos utilizan funciones de pérdida genéricas (p.e., el RMSE) y prestan una atención excesiva a la estimación puntual. Ambas son decisiones subóptimas. Integrar el proceso predictivo en el de toma de decisiones conduciría de forma natural a la adopción de funciones de pérdida distintas y a prestar mucha menos atención al hecho de acertar con las predicciones y más a la idoneidad de las decisiones.

Hoy he asistido a un "evento" sobre ciencia de datos en Cabify: dos partes y una reflexión

La primera parte

Métodos sofisticados (técnica, metodológicamente) para hacer más eficiente la movilidad urbana. Nowcasts en lugar de forecasts (¡genial!), técnicas de NPL aplicadas en otros contextos (¡bien!), vector embeding) (hummmm…),… y, en general un derroche de talento para conseguir hacer más con menos (y, por el camino, ganar algo de dinero, por supuesto).

La segunda parte

Con pizza y cerveza y en petit comité, cómo todo eso puede desaparecer de un plumazo de los que se publican en el BOE por obra y gracia de la caverna. Que bien podría pasar que Cabify tuviese en el futuro que dejar de operar en el país que lo vio nacer, España, si al regulador le da por ahí.

Hoy estoy participando en un evento sobre "big data"

Hoy estoy participando en la mesa redonda que cierra este evento. Espero dejar claro, cuando menos:

  • Qué quiere decir un cliente cuando dice que necesita big data: excel no da más de sí, tenemos a la gente copiando y el valor de una celda de aquí y pegándolo en un correo allá, etc.
  • Qué quiere (o debería querer) decir un consultor cuando vende big data: te voy a ayudar a automatizar ciertas tareas que tienen que ver con datos.
  • Qué es lo que no se debe tratar de automatizar: la generación y evaluación de modelos (si es que se llega siquiera a construir modelos).
  • Qué es lo automatizable: todo lo que se hace a fuerza de ratón.

Vox clamantis in deserto según unos, edgelord, según otros.

Hay bulos, sí, pero la pregunta es: ¿qué hacer?

Ayer asistí a una charla, Pseudociencia en la red: la pandemia de bulos y rumores que nos amenaza en la que se habló mucho del qué (qué bulos circulan, dónde se ubican, cómo se difunden, etc.) un poco del quiénes (separando un nosotros, los racionales/racionalistas, de una masa de tamaño indefinido de gentes susceptibles a un pensamiento mágico) y casi nada del qué hacer. Así que formulé una pregunta que reproduzco aquí por si a alguien le apetece darle vueltas.

Charla: las *-metrías en la práctica de la ciencia de datos: el papel de la teoría

El próximo 8 de febrero daré una charla dentro del ciclo de Data Konferences.

Para la mía han creado el siguiente cartelito:

El resumen que preparé es:

Una de las características definitorias de la nueva ciencia de datos es su desdén por los planteamientos teóricos. Aspira a encontrar estructura en los datos aplicando una serie de técnicas, generalmente muy intensivas computacionalmente, pero omitiendo cualquier planteamiento o condicionamiento a priori. Este planteamiento subvierte el que fundamenta las *metrías (sicometría, econometría, etc.): en ellas, en análisis de datos tiene como objetivo medir (de ahí el nombre) una serie de parámetros presupuestos por un planteamiento teórico previo. Este conflicto tiene derivadas filosóficas (que, a pesar de su interés, no consideraremos) y otras de índole práctica. Porque gran parte del trabajo real del científico de datos actual sigue el programa de las *metrías, a pesar de las manifestaciones habituales al contrario. Esta charla quiere poner de manifiesto el valor de la teoría subyacente e ilustrar cómo el quehacer de un científico de datos consiste frecuentemente en medir parámetros establecidos dentro de un marco teórico riguroso a través de una serie de ejemplos prácticos reales.

La estadística (y la ingenería, y la medicina, y...) es una tecnología

Abundo aquí en un punto polémico de mi charla de Pamplona: el que define la estadística como una tecnología (bajo una definición bastante particular de ella).

Pero es conveniente comenzar por el concepto de técnica. Que el DRAE define horripilantemente:

Conjunto de procedimientos y recursos de que se sirve una ciencia o un arte.

Y no, no, no… No solo las ciencias o las artes se sirven de técnicas para alcanzar sus fines. También los homeópatas, los curanderos, los chamanes, los echadores de cartas, etc. se sirven de técnicas sin que su actividad pueda calificarse de ciencia (¿o es que se trata de artes?).

Charla en Pamplona

A la hora en que se publiquen estas líneas estaré llegando a Pamplona para participar como ponente en la jornada ¿Es la estadística una parte significativa de la ciencia de datos? organizada por el InaMat en la Universidad Pública de Navarra.

La invitación ha sido una oportunidad (que agradezco muchísimo) para reflexionar sobre la problemática relación entre estadística y ciencia de datos y tratando de ser, por una vez, constructivo. A pesar de ello, mi ponencia llevará por título Estadística y Ciencia de Datos: la revalorización del “no”, que sugiere lo contrario.