Consultoría

Simpson y la plebe anumérica

Supongamos que los habitantes de un país tienen una probabilidad determinada (y no necesariamente igual) $latex p_i$ de comprar un determinado producto. Supongamos que se lanza una campaña publicitaria que incrementa en una cantidad fija $latex \epsilon$, p.e., 5%, esa probabilidad.

Supongamos, finalmente, que se trata de una cantidad que se desea estimar.

Unos individuos reciben la campaña publicitaria. Otros no. ¿Cuál es la diferencia entre las proporciones de individuos que compran el producto en uno y otro grupo? ¿$latex \epsilon$? ¿Es esa nuestra mejor estimación?

ROI de ida y vuelta

Hace años, allá por el 2004, trabajaba en SAS. Íbamos a hacer una propuesta para la detección del fraude en una empresa de telefonía móvil de las de entoces. Habían medido el importe anual del fraude en X miles de euros. Nosotros íbamos a implantar un sistema que ayudase a prevenir un determinado porcentaje de él. El quid de la cuestión era cuál: alrededor de esa cuestión gravitaban los números en negrita de la propuesta que estábamos por elaborar.

El problema del 100% (y un ensayo de solución)

Te encargan un modelo. Por ejemplo, relacionado con el uso de tarjetas de débito y crédito (aunque a lo que me referiré ocurre en mil otros contextos). Una variable que consideras importante es la proporción de veces que se usa para sacar dinero de cajeros (y no para pagar en establecimientos). Así que, para cada cliente, divides el número de retiradas por el número de veces que la tarjeta se ha usado y obtienes ese número entre el 0 y el 1 (o entre el 0% y el 100%).

Una transformación (y segmentación) novedosa de variables (lognormaloides)

– La variable gasto tiene una distribución muy fea que tiene un impacto en el modelo. He optado por transformarla. – ¿Qué has hecho? – Bueno, verás: no es lo mismo que alguien gaste menos de un euro o que gaste más de cien. A los que gastan entre cero y uno les he dado el valor 0. – Vale. – Entonces, a los que gastan, digamos, entre 1 y 10, 1; luego, a los que gastan entre 10 y 100, 2. Porque no es lo mismo gastar 9 que 90, ¿no? – Claro. – Y así sucesivamente… a los que gastan entre 100 y 1000 euros, les he puesto un 3… – Para, para, para… ¡has tomado el logaritmo! – Eh, bueno, en realidad… log10(x+1)

Tan actual 25 años después

Dentro de unos días os copiaré aquí unas líneas de un artículo del 83 que bien pudiera haber sido escrito el mes pasado. Pero hoy no voy a ir tan lejos. Me quedo con uno del 89 que recomiendo que hojeéis: Clinical vs Actuarial Judgement.

No, no vais a aprender en él nada que no sepáis. Os podrá parecer viejuno el uso de clínico o actuarial para denotar conceptos que ahora conocemos por otros nombres. Pero el tema, desgraciadamente, sigue siendo reciente. Todavía hay clínicos —más bien, todavía siguen siendo mayoría— que desconfían de los cálculos probabilísticos proporcionados por las máquinas (actuariales en la terminología del artículo) más que de su propia intuición.

ykmeans, ¿broma, ironía o triste realidad?

Estar suscrito a las actualizaciones de CRAN le permite a uno estar al tanto de las novedades de R de otra manera. De vez en cuando uno encuentra pequeños paquetes que le solucionan un problema puntual. Mucho más frecuentemente, la verdad, uno se topa con aplicaciones muy específicas en áreas que le resultan remotas.

Pero uno no espera nunca tropiezar con paquetes que no sabe si clasificar como una broma, una ironía bromas o como algo mucho peor: la constatación de una triste realidad. Es el caso de ykmeans.

Memoria de decaimiento exponencial y canutos asíncronos

Primero, canuto es como llamo yo a los streams: lugares por donde nos llegan datos —de sujetos que sacan dinero del cajero, de sensores de lo que sea, de clientes que llaman por teléfono—, típicamente en forma asíncrona. Es decir, que los eventos suceden cuando se les antoja, sin una periodicidad preestablecida.

Y uno quiere medir cosas. Por ejemplo, la frecuencia. O la intensidad de uso —¿cuánto se utiliza una tarjeta de crédito?—. Son estos fines para los que la gente todavía utiliza técnicas mandadas a recoger. Y ni siquiera. Podría contar la anécdota de un muy desavisado —por no decir cosas peores— que trabajaba conmigo no hace tanto. Se ufanaba de que tirando de su mucho ingenio y utilizando tecnologías punterísimas era capaz de asociar a cada sujeto de nuestra base de datos la serie temporal de sus actividades (asíncronas) durante los últimos meses. Y la verdad, a fuerza de tesón, lo consiguió durante un fin de semana en el que, me da la sensación, durmió poco. Llegó la reunión del lunes y nos contó con prolijidad de detalles sus muchos méritos y logros. Pero entonces se encogió un poco, se deshinchó un mucho y preguntó con mucha humildad: _y ahora que tengo todo esto, ¿qué más puedo hacer? _(entiéndase: para realizar un análisis estadístico del comportamiento de los sujetos).

Algunos problemas de la regresión paso a paso ("stepwise")

Fueron problemas planteados por Frank Harrell, recopilados aquí y ahora traducidos por mí para mi bitácora.

Problemas de la regresión paso a paso:

  • La R-cuadrado obtenida está muy sesgada hacia arriba.
  • Los test F y chi-cuadrado que aparecen al lado de las variables no siguen dichas distribuciones.
  • Los intervalos de confianza son demasiado (e incorrectamente) estrechos.
  • Los p-valores obtenidos no tienen el significado esperado y el de corregirlos adecuadamente es un problema muy difícil.
  • Proporciona coeficientes sesgados y excesivamente grandes.
  • Tiene problemas serios en caso de colinealidad en las variables.
  • Está basado en métodos que fueron pensados para probar hipótesis preestablecidas.
  • Incrementar el número de muestras no corrige los problemas anteriores.
  • Nos permite no tener que pensar sobre el problema.
  • Consume mucho papel.

Algunas conclusiones:

En recuerdo de Leo Breiman

Recomiendo leer esto. Es un artículo que repasa la labor de Leo Breiman, pionero en esa nueva forma de plantear el análisis de datos que acabó convirtiéndose en la minería de datos y de algunos de los algoritmos y métodos más comunes que conforman la caja de herramientas de quienes lo practican hoy en día. Entre ellos, los árboles de decisión y de regresión y los random forests.

Así comienza el artículo:

How many theoretical probabilists walk away from a tenured faculty position at a top university and set out to make their living as consultants? How many applied consultants get hired into senior faculty positions in first-rate research universities? How many professors with a fine reputation in their field, establish an equally fine reputation in a different field, after retirement? Leo Breiman did all of these things and more.

Cuatro principios para tomar mejores decisiones

Proceden de un número de McKinsey Quarterly de este año y se organizan alrededor del acrónimo WARP:

  • W (widen your options, incrementa tus opciones): considera al menos dos opciones robustas para cada toma de decisiones.
  • R (reality-test your assumptions, somete tus hipótesis a un baño de realidad): trata de realizar pequeñas pruebas de verificación.
  • A (attain some distance, distánciate): trata de revisar el asunto como si te fuese ajeno, desde afuera.
  • P (prepare to be wrong, prepárate para el fracaso): plantea un plan de salida claro desde el principio: si no logro esto y esto en tal plazo…

Sexo, deporte y la cantidad de información mutua

Perdón por el titular. No soy inasequible a las modas.

La cuestión del día de hoy es la siguiente: tenemos una variable X inobservable y otra variable Y potencialmente correlacionada con X. ¿Cuánto podemos decir de X de conocida Y?

Supongamos que ambas son binarias. Si conozco Y poseo 1 bit de información. Si solo conozco X (que me da pistas sobre Y) conoceré una fracción de un bit de información (sobre Y).

Lo relevante, arriba y a la izquierda

No es lo más importante del mundo. Pero considero una descortesía de un tabulador de datos para con sus usuarios que no ponga la información más relevante arriba y a la izquierda.

Por ejemplo, en el último Informe Trimestral de la CMT uno encuentra la información así:

No es terrible, pero la información que más a mano aparece es la menos interesante, la del 2005. Para ver el último dato hay que desplazarse (i.e., hacer scroll) hasta el fondo a la derecha.