Consultoría

BI Survey 13: el veredicto del cliente

Un cliente esporádico mío, BARC, me ha pedido que le ayude a divulgar su encuesta periódica de evaluación de herramientas de lo que llaman business intelligence.

He accedido en parte, sí, porque hay que estar bien con los clientes. Sobre todo los esporádicos.

Pero también porque el mundo del BI es sumamente opaco e impera la información asimétrica. Quienes compran herramientas como SAP, Cognos, SAS, Microstrategy, etc. están a dos velas de lo que ocurre en el edificio de al lado, de los problemas que van a encontrar en su implementación, de su rendimiento en producción. Están casi totalmente a expensas de los cantos de sirena de los vendedores.

Pero mañana seguiremos usando Excel

Inmerso en asuntos que los más catalogarían de friquis, he permanecido ignorante de los más de los infelices sucesos que nos ha regalado el mundo durante los últimos días.

Pero sí que he tenido ocasión de enterarme de algo de ese runrún, imagino que conocido de los más, sobre unos economistas encopetados que usanban Excel (y unos economistas muy encopetados). Noticia que se suma a otra que guardaba para comentarla un día: cómo JP Morgan estuvo calculando su VaR erróneamente durante años por los mismos motivos.

¿Cómo vota la gente?

La gente vota de muchas maneras. A bote pronto, uno diría que lo hace cada cuatro años con papeletas y en medio de parafernalia de listas cerradas, mítines y similares aditamentos.

Pero hay otros que opinan que hay mecanismos alternativos de voto. La gente puede votar en Twitter, por ejemplo. Y algunos conceden a esos votos una relativa potestad para adivinar o, incluso, influenciar fenómenos de importancia económica, política o social.

Quienes entablan batallas numéricas después de las manifestaciones, qué duda cabe que atribuyen efectos plebiscitarios a que la cola de la marcha llegase o no a Atocha cuando la cabecera entraba a Colón.

Sobre los límites de la minería de datos

Guardaba en la cartera un artículo que ya pronto cumple sus cinco años. Sirve de contrapunto a toda esa literatura que describe la minería de datos como una suerte de panacea, la cómoda senda hacia un futuro de armonía y color.

Se trata de una entrevista a Peter Fader sobre a lo que la minería de datos alcanza y no alcanza.

Los estadísticos se sienten relativamente cómodos ascendiendo de lo particular a lo general (por ejemplo, calculando una media). En contraposición, la promesa de la minería de datos consiste en la predicción del comportamiento de los individuos, de cada individuo, a partir de modelos construidos sobre repositorios de datos cada vez más extensos y perfiles más detallados de cada sujeto.

El (escaso) beneficio marginal de trabajar

Ayer hablé con un tipo. Es ingenerio superior, con quince años de experiencia y… desempleado desde hace unos meses. Me contaba que le habían ofrecido un trabajo (en condiciones, además, sorprendentemente más beneficiosas de lo que se ve por ahí en estos días). Pero que, me contaba, el beneficio marginal para aceptarlo (que conllevaría renunciar a la prestación por desempleo, etc.) le resultaba insuficiente. Mejor seguir desempleado.

Y él sin producir, el estado teniendo que abonarle la prestación y la empresa teniendo que seguir rebuscando entre currículos. Todo carga muerta social. ¿Es este nuestro sino? ¿O pueden plantearse alternativas inteligentes en las que, sin que nadie resulte perjudicado, se reduzca el coste social a las que dan lugar este tipo de coyunturas?

¡A los datos mismos!

Me llamaron (y aún no tengo claro qué hay de lo mío en el asunto) para un proyecto. Consistía en estimar el tiempo que lleva completar determinados procesos en una conocida empresa.

Cada proceso $latex P_i$, se ve, consistía en una sucesión de subprocesos parametrizados, por lo que las duraciones podrían calcularse algo así como

$$ P_i=p_{i1}+\dots+p_{ik}.$$

Además, cada $latex p_{ij}$ dependía de ciertos parámetros, aunque eso no es lo más relevante para el caso.

Ciencia e ingeniería; estadística y... ¿y qué?

Los científicos llevan desde siempre (aunque con notable más fortuna en los últimos 300 o 400 años, a lo sumo) descubriendo y describiendo los pedacitos funcionales del universo. Los ingenieros, luego, los combinan y crean objetos útiles con ellos: aviones, ordenadores, prótesis, etc.

Los estadísticos llevan cien o ciento cincuenta años largos tratando de domesticar el azar. Y han identificado una enorme variedad de herramientas con las que navegarse en un mundo casi ahogado en cifras. Al mismo tiempo, existe caos. Existe información; pero que se parece muy poco a los cuadros de números casi de jueguete que aparecen en los libros. Existe la necesidad imperiosa de entenderla y ponerla a trabajar en nuestro favor.

¿Se puede predecir con Twitter?

Tal y como quedaron establecidos hace 80 años los parámetros para determinar si una hipótesis es o no plausible —por no calificarla de significativa o, más malévolamente, publicable— sólo una de cada veinte lo serían.

Es un hecho que contrasta con la habilidad de los consultores que se dedican a esa labor tan difícil de acotar y que va desde la estadística a la minería de datos tocando otras áreas más o menos afines. Los buenos, siempre encuentran efectos significativísimos y relevantísimos con que adornar sus presentaciones. So pena de ser sustituidos por otros con todavía menos escrúpulos que sepan envolver con maña en pan de oro el accidente y la aleatoriedad.

Cuando falta la variable más importante (II)

No sé si esto que voy a contar me obliga a tragarme mis propias palabras. Porque siempre he pensado que era poco menso que imposible. Pero hace unos pocos días escribí sobre el asunto y hoy traigo otro similar a colación.

La variable más importante a la hora de construir un modelo es, precisamente, la que se quiere predecir. Casi todos los textos asumen que se conoce sin ningún género de dudas en, al menos, una determinada muestra que, además, corresponde más o menos a la población subyacente: si el paciente sobrevive o no; si la hipoteca entra en mora o no; si el cliente responde a la oferta o no, etc.

Cuando falta la variable más importante

Imaginemos que queremos predecir y, que toma valores 0 y 1 a partir de indicios (o variables) x mediante una función (un clasificador) f. Podemos visualizar el error de clasificación usando la matriz

Efectivamente, el error es (perdónenme la notación) B+C. Como estadísticos estamos habituados a tratar de minimizar C mientras mantenemos B lo suficientemente pequeño. Un test es tanto más potente cuanto menor es C.

Pero podemos reescribir B+C como

Churn y redes sociales: un ejemplo en telecomunicaciones

He leído recientemente el artículo Social Ties and their Relevance to Churn in Mobile Telecom Networks porque ilustra una técnica muy de moda: el análisis de redes sociales (SNA) en en ámbito de las telecomunicaciones y, en particular, la construcción de indicadores tempranos de baja (churn) de clientes de telefonía móvil. Más aún, permite rediseñar estrategias basadas en los resultados para retener clientes: al clasificarlos mejor usando técnicas de SNA, pueden diseñarse estrategias activas para aquellos que no sólo tienen una mayor predisposición a darse de baja sino, además, a arrastrar con ellos a parte de su entorno social.

Las preguntas oportunas brillan por su ausencia

Se levantó un revuelo hace unos días en la profesión a raíz de la noticia de que Target había descubierto que una adolescente estaba embarazada antes que sus mismos padres. En el artículo se explica cómo lo hacen:

[…] identificó unos 25 productos que, cuando se analizaban juntos, le permitían asignar a cada cliente una “probabilidad de embarazo”. Más aún, podía estimar la fecha del parto con una gran precisión, de manera que Target podía enviar cupones de acuerdo con la fase del embarazo.

El cuadrante mágico de Gartner y sus contradicciones internas

A la gente de Gartner le encanta su (impropiamente denominado) cuadrante mágico, que es una cosa tal como

Dispone Gartner sobre él los productos de diversos proveedores (de informática de gestión) en función de dos variables, ability to execute y completeness of vision. El cuadrante está partido en cuatro sectores en los que se ubican:

  • Los líderes (leaders), que son los que obtienen buena calificación en ambas dimensiones.
  • Los aspirantes (challengers), a los que falta visión.
  • Los visionarios (visionaries): mucho abarcan, poco aprietan.
  • Los nichos específicos (niche players): dizque están especializados en algunos mercados concretos.

Pero siempre que lo veo me surge la siguiente pregunta: ¿son verdaderamente relevantes las dos variables mágicas? Veamos… IBM supera en ambas variables a SAS y SAP (y a muchos otros proveedores). Eso puede significar dos cosas mutuamente opuestas: