Consultoría

Me llamaron (y aún no tengo claro qué hay de lo mío en el asunto) para un proyecto. Consistía en estimar el tiempo que lleva completar determinados procesos en una conocida empresa.

Cada proceso $latex P_i$, se ve, consistía en una sucesión de subprocesos parametrizados, por lo que las duraciones podrían calcularse algo así como

$$ P_i=p_{i1}+\dots+p_{ik}.$$

Además, cada $latex p_{ij}$ dependía de ciertos parámetros, aunque eso no es lo más relevante para el caso.

Los científicos llevan desde siempre (aunque con notable más fortuna en los últimos 300 o 400 años, a lo sumo) descubriendo y describiendo los pedacitos funcionales del universo. Los ingenieros, luego, los combinan y crean objetos útiles con ellos: aviones, ordenadores, prótesis, etc.

Los estadísticos llevan cien o ciento cincuenta años largos tratando de domesticar el azar. Y han identificado una enorme variedad de herramientas con las que navegarse en un mundo casi ahogado en cifras. Al mismo tiempo, existe caos. Existe información; pero que se parece muy poco a los cuadros de números casi de jueguete que aparecen en los libros. Existe la necesidad imperiosa de entenderla y ponerla a trabajar en nuestro favor.

Tal y como quedaron establecidos hace 80 años los parámetros para determinar si una hipótesis es o no plausible —por no calificarla de significativa o, más malévolamente, publicable— sólo una de cada veinte lo serían.

Es un hecho que contrasta con la habilidad de los consultores que se dedican a esa labor tan difícil de acotar y que va desde la estadística a la minería de datos tocando otras áreas más o menos afines. Los buenos, siempre encuentran efectos significativísimos y relevantísimos con que adornar sus presentaciones. So pena de ser sustituidos por otros con todavía menos escrúpulos que sepan envolver con maña en pan de oro el accidente y la aleatoriedad.

No sé si esto que voy a contar me obliga a tragarme mis propias palabras. Porque siempre he pensado que era poco menso que imposible. Pero hace unos pocos días escribí sobre el asunto y hoy traigo otro similar a colación.

La variable más importante a la hora de construir un modelo es, precisamente, la que se quiere predecir. Casi todos los textos asumen que se conoce sin ningún género de dudas en, al menos, una determinada muestra que, además, corresponde más o menos a la población subyacente: si el paciente sobrevive o no; si la hipoteca entra en mora o no; si el cliente responde a la oferta o no, etc.

Imaginemos que queremos predecir y, que toma valores 0 y 1 a partir de indicios (o variables) x mediante una función (un clasificador) f. Podemos visualizar el error de clasificación usando la matriz

Efectivamente, el error es (perdónenme la notación) B+C. Como estadísticos estamos habituados a tratar de minimizar C mientras mantenemos B lo suficientemente pequeño. Un test es tanto más potente cuanto menor es C.

Pero podemos reescribir B+C como

He leído recientemente el artículo Social Ties and their Relevance to Churn in Mobile Telecom Networks porque ilustra una técnica muy de moda: el análisis de redes sociales (SNA) en en ámbito de las telecomunicaciones y, en particular, la construcción de indicadores tempranos de baja (churn) de clientes de telefonía móvil. Más aún, permite rediseñar estrategias basadas en los resultados para retener clientes: al clasificarlos mejor usando técnicas de SNA, pueden diseñarse estrategias activas para aquellos que no sólo tienen una mayor predisposición a darse de baja sino, además, a arrastrar con ellos a parte de su entorno social.

Se levantó un revuelo hace unos días en la profesión a raíz de la noticia de que Target había descubierto que una adolescente estaba embarazada antes que sus mismos padres. En el artículo se explica cómo lo hacen:

[…] identificó unos 25 productos que, cuando se analizaban juntos, le permitían asignar a cada cliente una “probabilidad de embarazo”. Más aún, podía estimar la fecha del parto con una gran precisión, de manera que Target podía enviar cupones de acuerdo con la fase del embarazo.

A la gente de Gartner le encanta su (impropiamente denominado) cuadrante mágico, que es una cosa tal como

Dispone Gartner sobre él los productos de diversos proveedores (de informática de gestión) en función de dos variables, ability to execute y completeness of vision. El cuadrante está partido en cuatro sectores en los que se ubican:

Los líderes (leaders), que son los que obtienen buena calificación en ambas dimensiones.
Los aspirantes (challengers), a los que falta visión.
Los visionarios (visionaries): mucho abarcan, poco aprietan.
Los nichos específicos (niche players): dizque están especializados en algunos mercados concretos.

Pero siempre que lo veo me surge la siguiente pregunta: ¿son verdaderamente relevantes las dos variables mágicas? Veamos… IBM supera en ambas variables a SAS y SAP (y a muchos otros proveedores). Eso puede significar dos cosas mutuamente opuestas:

Me envía Guillermo Córdoba, de Unica360, una selección de entradas de su bitácora que, creo, serán también del interés de mis lectores:

¡Buena lectura!

Mi extemporáneo periodo vacacional me ha dado, entre otras cosas, para ver dos películas en las que resuenan claros ecos relacionados con la estadística.

La primera de ellas es Moneyball, basada en el libro homónimo. Cuenta la historia de un equipo de béisbol con escasos recursos que utiliza técnicas estadísticas —desafiando así los inveterados procedimientos subjetivos de los ojeadores— para identificar y fichar a los jugadores adecuados para alcanzar el objetivo último del deporte: ganar.

Consultoría

¡A los datos mismos!

Ciencia e ingeniería; estadística y... ¿y qué?

¿Se puede predecir con Twitter?

Cuando falta la variable más importante (II)

Cuando falta la variable más importante

Churn y redes sociales: un ejemplo en telecomunicaciones

Las preguntas oportunas brillan por su ausencia

El cuadrante mágico de Gartner y sus contradicciones internas

Artículos interesantes en la bitácora de un colega

Estrenos con ecos estadísticos (I): Moneyball