Parametrización de modelos de supervivencia (paramétricos)
He participado directa o indirectamente en algunas decenas de los llamados proyectos de churn. Estoy al tanto de aún más de los que he hablado con otros colegas.
Digresión (para desavisados): se aplica (impropiamente) el término churn a aquellos clientes (en general) que abandonan una compañía o dan de baja un servicio. En realidad churn se refiere al flujo a corto plazo de clientes de poco valor que adquiere una compañía y que pierde enseguida. No sé por qué no se ha popularizado abandono. Uno de los primeros proyectos que abordan los departamentos de inteligencia de clientes de las compañías que se lo pueden permitir es tratar de identificar aquellos clientes con alta probabilidad de abandonarla.
Una de las mayores frustraciones de quienes procedemos del mundo de la estadística es que (prácticamente) nadie se haya planteado jamás utilizar las técnicas del análisis de la supervivencia al abandono. Por algún motivo, el análisis de la supervivencia se ha circunscrito a dos o tres áreas de aplicación pequeñas y estancas: medicina, ciertas áreas de la bioestadística y la demografía, los seguros (¡por supuesto!) y tal vez la ciencia de materiales y la fiabilidad en ingenería. Fin.
Uno de mis grandes temas y que menos amigos me ha granjeado es el de la adecuación de las herramientas de modelación de fenómenos estadísicos a la estructura probabilística del problema. Muchos de quienes trabajan en data mining/science desconocen este tipo de técnicas. Tampoco es culpa suya. Acabo de buscar en el libro (¡muy recomendable!) An Introduction to Statistical Learning la palabra surviv(al) y aparece exactamente dos veces en +400 páginas: la primera asociada al técnicas de discriminación lineal y la segunda a clústering y PCA.
Este preámbulo (que ahora que releo descubro que casi amerita una entrada propia) es solo abrebocas para el asunto de hoy, una parametrización que desconocía de modelos paramétricos de supervivencia y que he descubierto leyendo esto.
Más allá de las consabidas funciones de riesgo, de supervivencia, etc., una parametrización alternativa de $latex T$, el tiempo que discurre hasta que ocurre lo que interesa, es posible: $latex \log(T)=\alpha + \sigma W$ donde $latex W$ es una distribución de probabilidad de soporte en todo el eje real.
Por ejemplo, para la distribución exponencial, la correspondiente $latex W$ tiene la antiestética función de densidad $latex \exp(w-e^w)$ (donde $latex \sigma = 1$, $latex \alpha = -\log \lambda$). Para la lognormal, $latex W$ es la normal. Para otras de las habituales, se puede consultar la referencia anterior. Incluso es posible encontrar expresiones $latex \alpha + \sigma W$ de las que muchos de los modelos habituales son casos particulares.
No estoy al tanto de aplicaciones de esta parametrización pero, sin duda, existen. Si no, a nadie daña una pequeña dosis de culturilla estadística.