Consultoría

Para un observador externo objetivo, eso que llaman ciencia es un conjunto de tinglados absolutamente intrascendente en para su día a día que opera de acuerdo con un sistema torcido de incentivos orquestados alrededor de una suerte de moneda ficticia que se llama paper que permite acumular avatares de todo tipo.

Esa economía ficticia mantiene nexos con la real. Por ejemplo, una acumulación suficiente de papers genera un avatar llamado sexenio que genera euros contantes y sonantes mes a mes en la cuenta corriente de quien lo ostenta. En ocasiones, también, los partícipes de ese enorme Monopoly pagan euros contantes y sonantes a terceros a condición de que estos elaboren papers (o partes significativas de ellos) para poder así firmarlos y canjearlos en el mercado de los avatares.

Aquí se propone un método para el análisis de datos que resume

Consta de dos procesos divergentes,

la exploración de los datos y
la modelización

y dos convergentes,

la síntesis y
la narración, que concluye el análisis.

En el enlace anterior se describe el proceso con más detalle. Eso sí, mis comentarios. El primero es que cada vez veo menos diferencia entre explorar y modelar. No entiendo ninguna exploración que no esté motivada por un modelo implícito; p.e., representar las medias por grupo no es otra cosa que una ANOVA para pobres. Crear árboles de decisión sobre los datos brutos es muy indicativo de por dónde van los tiros en los datos, qué variables son más importantes, cuáles son irrelevantes, etc. Obviamente, el modelo final no va a ser ninguno de estos protomodelos, pero sí que contienen su germen.

Puede que sí, pero no por las razones expuestas en Retina.

[Nota: Perdón por meterme con Retina. Es tan de amateur como criticar los gráficos de Expansión o los argumentos económicos de un peronista.]

En particular, argumenta Retina que esas máquinas a las que les echas unos datos y encuentran por sí solas el mejor modelo nos van a dejar sin trabajo.

Otra vez.

El autoML es como los crecepelos, las dietas milagrosas y los tipos que te cuentan que van a hacerse ricos con su algoritmo de inversión en bolsa: llevan toda la vida anunciándolos, logran cierta exposición mediática gracias a panfletos como Retina y nadie les dedica un mal obituario cuando mueren en el olvido (¿alguien recuerda a KXEN, por ejemplo?).

En algún momento del 2006 tuve que ver en un proyecto en UICH (Una Importante Cadena de Hipermercados). Estaban muy preocupados por la redención de cupones: querían incrementar el porcentaje de los cupones de descuento que distribuían entre sus clientes.

Yo, que era un consultor bisoño en la época (y que por lo tanto, ignoraba que, trabajando en márketing había que dejar el sentido común en casa e impostar uno distinto de camino al trabajo) preguntaba (¡animalico!): ¿por qué le quieres hacer descuentos en la Cocacola a gente que, de todos modos, va a acabar comprando Cocacola?

[Mil perdones por utilizar el término ciencia de datos; lo he hecho por darme a entender sin enredarme en distingos.]

[Mil perdones por (ab)usar (de) la terminología X.0; de nuevo, lo he hecho por darme a entender sin enredarme en distingos.]

Todo es un caos y llega alguien con una idea paretiana. Por ejemplo, esta (que es la que ha motivado esta entrada). La idea paretiana puede ser usar regresión logística sobre un subconjunto de variables que tienen sentido; o automatizar una serie de reglas duras (sí, unos cuantos ifs) que la gente que conoce el asunto saben que funcionan sí o sí. Etc. En resumen, cosas simples, sólidas y efectivas.

Tenemos en Circiter un proyecto sobre el que no puedo dar muchos detalles, pero que vamos a plantear (en versión muy resumida) como un modelo que alimenta una simulación.

El modelo no va a ser un modelo sino un modelo por sujeto (rebaños, los llamamos aquí). Los modelos serán, casi seguro, modelos mixtos (lmer/glmer).

Pero claro, si usas un modelo, por muy mixto que sea, con intención de simular, predict se queda muy corto (¡siempre da la el mismo resultado!).

Tales son las circunstancias de los tiempos que nos ha tocado vivir que muchos de quienes trabajamos en ciencia de datos, querámoslo o no, nos dedicamos a vender cachivaches. De ahí que recomiende la lectura de

un librito con muchas posibles interpretaciones pero que da en el clavo en muchas. O tal opino yo.

Nota: muchas cosas han cambiado desde que se publicó. No sé si es bueno leer esto antes o después que el libro.

Yo elaboro propuestas de proyectos. Sé lo que pasa cuando los ganas (y también cuando no). Así que pienso en un proyecto

de cuatro años de duración,
compartido con otras empresas de intereses variopintos y sujeto a negociaciones con ellas,
con una cuota de responsabilidad desconocida a priori y
en un contexto cambiante y sujeto a circunstancias extrañas y fuera de control (y si no sabéis a qué me refiero, un nombre: Zapatero)

y me da la risa pensar que alguien pueda tomarse en serio algo llamado programa (electoral, por si alguien no se había percatado de a lo que me refiero).

Nuestro producto aumenta el X de las empresas en un Y%.

¿Cuántas veces hemos oído eso?

Esa afirmación presupone una fe ciega en la posibilidad de aplicar el principio del ceteris paribus en situaciones reales. Pues lo siento: el ceteris paribus es un concepto irreal, una aspiración a la que la realidad de las cosas se opone tozudamente.

¿Y Heráclito? Heráclito nos observa desde donde esté y se fuma un puro.

En Circiter estamos negociando con unos clientes potenciales acerca de, tal como nos dijeron inicialmente, construir un modelo. Todo bien.

En la última reunión surgió la pregunta (¡qué vergüenza por mi parte no haberla planteado mucho antes!): ¿cómo habría que usarlo para dar soporte al negocio? La discusión subsiguiente dejó claro que habría que cambiar sustancialmente la aproximación al modelo. Por ejemplo:

Era tanto o más importante la discriminación intra-sujeto que la entre-sujeto (es decir, importaba más lo que el modelo pudiera decir de los ítems de cada sujeto que las diferencias que pudiera mostrar entre sujetos).
La capacidad predictiva del modelo, aun siendo importante, se volvía una medida subsidiaria.
Cobraba una particular relevancia el problema del cold-start.

En definitiva, la necesidad de uso cambiaba la estrategia de modelación de arriba a abajo.

Consultoría

Lo que queda cuando has eliminado tantas cosas que ya no se entiende nada se llama "paper"

Fases divergentes y convergentes del análisis de datos

Ser científico de datos, ¿puede ser menos sexi de lo que te han contado?

Sobre la burbuja del "online advertising"

Ciencia de datos 1.0 vs ciencia de datos 2.0

Un modelo que alimenta una simulación

Rebelarse vende

Yo no elaboro programas electorales pero sí propuestas de proyectos

Ceteris paribus vs Heráclito

Las decisiones son lo primario; la estadística es subsidiaria