Consultoría

Escribiendo la entrada del otro día sobre embeddings, no se me pasó por alto que la fórmula $$ \frac{P(W_i,C_i)}{P(W_i)P(C_i)}$$ que escribí en ella es análoga al llamado lift (¿es el lift?) del llamado análisis del carrito de la compra, i.e., el estudio de productos que tienden a comprarse juntos (véase, por ejemplo, esto). Lo cual me lleva a sugerir mas no escribir una entrada en la que se rehagan este tipo de análisis usando embeddings: los ítems como palabras, los carritos como textos, etc.

Hace años, algunos ya, di un curso de R en una empresa de consultoría bastante grande. La impartí dentro de un grupo que desarrollaba soluciones para el mercado eléctrico. Hablando con ellos, a la hora del café, me contaron uno de los proyectos en los que trabajaban: un sistema de optimización de la distribución eléctrica que podía ahorrar millones (no recuerdo bien la cifra, pero era impresionante) a las compañías eléctricas en concepto de energía que se disipaba y perdía sin beneficiar a nadie.

Se habla mucho de replicabilidad (y la falta de ella) como indicio de una crisis en ese complejo de intereses económicos, de poder y, en ocasiones, fornicatorios en que ha devenido la ciencia. Pero qué más nos da que se publique un artículo más o un artículo menos o que una ocurrencia irrelevante, gracias a un sinfín de artefactos propios de la industria de la salchicha, sea cohonestada con un p-valor menor o mayor que 0.

Hay gente a la que recomiendo Kaggle y similares. Otra a la que no. Con estos últimos suelo razonar alrededor de las ideas contenidas en Why I decided not to enter the $100,000 global warming time-series challenge (versión corta: retorno esperado negativo). Y no me refiero tanto al monetario explícito del que habla el artículo, por supuesto, sino al otro: el que involucra el coste de oportunidad.

El otro día, en la ronda de preguntas tras mi charla en la Universidad de Zaragoza, después de mi enconada defensa de las prioris informativas, alguien apostilló muy agudamente: si tenemos prioris muy informativas, ¿para qué queremos datos? Eso, ¿para qué queremos datos? El otro día me lo explicó otro amigo en las siguientes líneas que reproduzco con las inexactitudes achacables a memoria anaidética: En una empresa, un consejero tiene un proyecto, una idea.

Tiene que ver mi entrada de hoy con Why did Big Data fail Clinton?, que trata de lo que el título indica: toda la tontería que se ha escrito de Cambridge Analytica. Enlazo todo lo demás, por otro lado, con el nóbel de economía de 2016 (Hart y otro). ¿Por qué? De acuerdo con lo que muchos han escrito, una empresa de siete friquis en el Reino Unido con acceso a los likes de 50000 donnadies y poco más tienen poder para quitar y poner reyes con unos cuantos clicks.

DataSynthesizer (véase también el correspondiente artículo) es un programa en Python que: Toma una tabla de datos (microdatos, de hecho) que contiene información confidencial. Genera otra aleatoria pero que conserva (¿los conservará?) la estructura básica de la información subyacente (conteos, correlaciones, etc.). Está pensado para poder realizar el análisis estadístico de (determinados) datos sin verlos propiamente. Particularmente interesante es el algoritmo para preservar la correlación entre columnas. [Nota: he aprovechado la entrada para acuñar el neologismo microdatado para referirme a quien figura en un fichero de microdatos.

Para modelizar una serie temporal, y simplificándolo mucho, ¿gam o rrff? Como todo, depende. El otro día oí de un caso en el que los segundos vencían a los primeros claramente. Natural. Hay contextos con una estructura matemática clara y potente. En particular, muchos en los que trabajo actualmente. ¿Para qué usar una herramienta genérica cuando cuento con una específica? Esos datos, mis datos, exigen estructura matemática. Luego hay otros casos en los que uno se lanza al río.

Alguna vez me han preguntado cómo construyo diapositivas como estas. La respuesta: uso reveal.js (que me da prácticamente todo lo que se ve) y me apoyo en el generador generator-reveal de yeoman para automatizar algunas tareas. Además, casi todas las diapositivas están escritas en markdown. Como casi siempre me olvido del procedimiento de arranque, siempre acudo a este breve tutorial. A los que no estamos muy puestos en todo lo nodejs nos viene siempre bien echar un vistazo para ver qué demonios hace cada uno de los distintos comandos (npm, n, etc.

Me toca lidiar con datos relativos a muertos. No de muertos hace mil años, o quinientos, o de las guerras carlistas, sino, casi, casi con muertos de cadáver caliente y viuda con mocos. He aquí la (¿aparente?) aporía. Por un lado, sábese que la Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos (en adelante, LOPD), no es de aplicación a las personas fallecidas. Pero, por otro: La Agencia Tributaria ni ha publicado ni es fácil que publique las declaraciones de la renta del finado Sr.

Alborozábanse los ratones al oír de sus líderes la solución definitiva al problema de aquel gato que los diezmaba inmisericordemente: ¡colóquesele un cascabel! El problema gordiano del pricing, el cascabel que hay que ponerle a ese gato, es el de la estimación de la curva de demanda. Ahi radica el quid. Unos lo resuelven con simulaciones que quedan estupendas sobre el papel. ¡Qué fácil es ponerle un cascabel a un gato de madera!

Los científicos de datos deberían saber algo, los rudimentos al menos, de los sistemas de recomendación. Saber, como poco, que los hay personalizados y no personalizados. Así como las ventajas e inconvenientes de unos y otros. Gartner ha publicado su informe de herramientas de ciencia de datos de 2018. Que es una especie de sistema de recomendación. Obviamente, no personalizado. Es raro que ningún artículo que haya leído sobre el asunto (escritos por más o menos presuntos científicos de datos) haya hecho hincapié en el asunto.

En una de esas comidas navideñas tuve que asistir pasivamente a una conversación en la que se dibujaba una peculiar realidad alternativa: existiría algo así como un conciliábulo (el Márketing) con capacidad de memoria, entendimiento y voluntad propias e interés por implementar una particular agenda de corte heteropatriarcal. Producto de la cual, por ejemplo, las afeitadoras de color rosa para mujeres vendrían a resultar más caras que las azules para hombres, etc.

Consultoría

"Embeddings" y análisis del carrito de la compra

Una anécdota sobre el mercado eléctrico y sus mermas

Replicabilidad (y su falta de ella, fuera de la academia)

El motivo: retorno esperado negativo

Posterioris informativas (o más bien, cuando te informan de cuál es la posteriori)

Guasa tiene que habiendo tanto economista por ahí tenga yo que escribir esta cosa hoy

Un generador de datos sintéticos para proteger la privacidad de los microdatados

gam vs rrff (y, en general, modelos generativos vs cajas negras)

Diapositivas con reveal.js y yeoman

Protección de los datos de los muertos

Estimar la demanda es como ponerle el cascabel al gato

Recomendaciones... ¿personalizadas?

¿Soy parte del concilábulo heteropatriarcal?