Charlas

Charla: predicciones y decisiones, más allá de los errores cuadráticos

El próximo 29 de noviembre (de 2018) de febrero daré una charla dentro del ciclo de Data Konferences de Kschool.

Para la mía han creado el siguiente cartelito:

El resumen que preparé es:

Se hace ciencia de datos para tomar decisiones. Las predicciones, mejores o peores, alimentan procesos de decisión (p.e., ¿se concede este préstamo?). Sin embargo, existe una brecha enorme (en términos de equipos responsables y de comunicación entre ambos) entre quienes construyen los procesos predictivos y quienes toman las decisiones finales. A falta de mejor criterio, los científicos de datos utilizan funciones de pérdida genéricas (p.e., el RMSE) y prestan una atención excesiva a la estimación puntual. Ambas son decisiones subóptimas. Integrar el proceso predictivo en el de toma de decisiones conduciría de forma natural a la adopción de funciones de pérdida distintas y a prestar mucha menos atención al hecho de acertar con las predicciones y más a la idoneidad de las decisiones.

Hoy he asistido a un "evento" sobre ciencia de datos en Cabify: dos partes y una reflexión

La primera parte

Métodos sofisticados (técnica, metodológicamente) para hacer más eficiente la movilidad urbana. Nowcasts en lugar de forecasts (¡genial!), técnicas de NPL aplicadas en otros contextos (¡bien!), vector embeding) (hummmm…),… y, en general un derroche de talento para conseguir hacer más con menos (y, por el camino, ganar algo de dinero, por supuesto).

La segunda parte

Con pizza y cerveza y en petit comité, cómo todo eso puede desaparecer de un plumazo de los que se publican en el BOE por obra y gracia de la caverna. Que bien podría pasar que Cabify tuviese en el futuro que dejar de operar en el país que lo vio nacer, España, si al regulador le da por ahí.

Ocurrencias: cuotas de gente de letras en la "ciencia de datos"

Cada vez me dejo ver menos por Meetups y similares. Pero el otro día no pude decir que no a pasar por un evento organizado por la gente de Politikon sobre el futuro del trabajo, el trabajo del futuro y otras cosas que no vienen al caso.

(No viene al caso pero lo resumo: acerca de la tecnología y su efecto en el trabajo en el futuro hay dos visiones contrapuestas: la de que dejará una masa enorme de desocupados y la de que no. El ponente era partidario de la segunda. Pero como sobre eso hay tanto escrito, mi posteriori movió mi priori —que era, a su vez, posteriori de muchas otras lecturas— un milímetro a la derecha.)

Hoy estoy participando en un evento sobre "big data"

Hoy estoy participando en la mesa redonda que cierra este evento. Espero dejar claro, cuando menos:

  • Qué quiere decir un cliente cuando dice que necesita big data: excel no da más de sí, tenemos a la gente copiando y el valor de una celda de aquí y pegándolo en un correo allá, etc.
  • Qué quiere (o debería querer) decir un consultor cuando vende big data: te voy a ayudar a automatizar ciertas tareas que tienen que ver con datos.
  • Qué es lo que no se debe tratar de automatizar: la generación y evaluación de modelos (si es que se llega siquiera a construir modelos).
  • Qué es lo automatizable: todo lo que se hace a fuerza de ratón.

Vox clamantis in deserto según unos, edgelord, según otros.

Charla: las *-metrías en la práctica de la ciencia de datos: el papel de la teoría

El próximo 8 de febrero daré una charla dentro del ciclo de Data Konferences.

Para la mía han creado el siguiente cartelito:

El resumen que preparé es:

Una de las características definitorias de la nueva ciencia de datos es su desdén por los planteamientos teóricos. Aspira a encontrar estructura en los datos aplicando una serie de técnicas, generalmente muy intensivas computacionalmente, pero omitiendo cualquier planteamiento o condicionamiento a priori. Este planteamiento subvierte el que fundamenta las *metrías (sicometría, econometría, etc.): en ellas, en análisis de datos tiene como objetivo medir (de ahí el nombre) una serie de parámetros presupuestos por un planteamiento teórico previo. Este conflicto tiene derivadas filosóficas (que, a pesar de su interés, no consideraremos) y otras de índole práctica. Porque gran parte del trabajo real del científico de datos actual sigue el programa de las *metrías, a pesar de las manifestaciones habituales al contrario. Esta charla quiere poner de manifiesto el valor de la teoría subyacente e ilustrar cómo el quehacer de un científico de datos consiste frecuentemente en medir parámetros establecidos dentro de un marco teórico riguroso a través de una serie de ejemplos prácticos reales.

La estadística (y la ingenería, y la medicina, y...) es una tecnología

Abundo aquí en un punto polémico de mi charla de Pamplona: el que define la estadística como una tecnología (bajo una definición bastante particular de ella).

Pero es conveniente comenzar por el concepto de técnica. Que el DRAE define horripilantemente:

Conjunto de procedimientos y recursos de que se sirve una ciencia o un arte.

Y no, no, no… No solo las ciencias o las artes se sirven de técnicas para alcanzar sus fines. También los homeópatas, los curanderos, los chamanes, los echadores de cartas, etc. se sirven de técnicas sin que su actividad pueda calificarse de ciencia (¿o es que se trata de artes?).

Charla en Pamplona

A la hora en que se publiquen estas líneas estaré llegando a Pamplona para participar como ponente en la jornada ¿Es la estadística una parte significativa de la ciencia de datos? organizada por el InaMat en la Universidad Pública de Navarra.

La invitación ha sido una oportunidad (que agradezco muchísimo) para reflexionar sobre la problemática relación entre estadística y ciencia de datos y tratando de ser, por una vez, constructivo. A pesar de ello, mi ponencia llevará por título Estadística y Ciencia de Datos: la revalorización del “no”, que sugiere lo contrario.

La anticonferencia: una idea que me ronda la cabeza

La anticonferencia me ronda la cabeza.

No es una conferencia, (de ahí el prefijo), aunque se parezca a ella en lo de reunir a un grupillo de gente interesada en un asunto.

No es un jacatón. Los jacatones están, sobre el papel, bien; pero demasiado a menudo su producto se queda ahí, tiene poca (o nula) trayectoria o impacto. ¿Me dejáis que diga que son mayormente intranscendentes?

Pero creo que los de rOpenSci dieron en el clavo con su Unconference. Es una reunión similar a un jacatón, pero con un objetivo claro: desarrollar paquetes y extender el universo de herramientas de rOpenSci.

Diapositivas sobre mi charla acerca del "stack analítico"

Tuve ocasión el pasado jueves, en Barcelona y gracias a la invitación de KSchool, de lo que llamo el stack analítico. Es decir, de aquellas herramientas tecnológicas necesarias para poder hacer ciencia de datos hoy en día.

Las diapositivas de la charla están aquí.

El tema es viejo pero no por ello menos urgente: existen herramientas (y, desgraciadamente, me he visto a incluir el saber leer documentación técnica en inglés) cuyo conocimiento es imperativo para poder trabajar de manera efectiva en ciencia de datos. Incluidos están sistemas operativos (dencentes), editores de texto (decentes) e IDEs y, como poco, un lenguaje de programación.

Disponibles las diapositivas de mi charla en el EL BetaBeers Madrid (especial opendata)

El anuncio de la charla es este y las diapositivas de lo que titulé ¿Son suficientes los datos abiertos? están disponibles aquí.

Como viene siendo tradicional (más que original) en mis charlas, las diapositivas consisten esencialmente en fotos. Así que son de poca utilidad sin el texto que no las acompaña. Igual saco rato la semana que entra y lo resumo por aquí.

Daré una charla en el Betabeers Madrid (especial OpenData)

Es el 16 de marzo (de 2017), es decir, el jueves que viene y estaré muy bien acompañado, como puede comprobarse en el programa.

Aunque aún no indique ahí de qué hablaré, tengo la presentación hecha a falta, únicamente del título. Adelanto únicamente que el contenido está muy condicionado por lo que rematará la reunión, una mesa redonda sobre los datos abiertos en Madrid.