Consultoría

¡A los datos mismos!

Me llamaron (y aún no tengo claro qué hay de lo mío en el asunto) para un proyecto. Consistía en estimar el tiempo que lleva completar determinados procesos en una conocida empresa. Cada proceso $latex P_i$, se ve, consistía en una sucesión de subprocesos parametrizados, por lo que las duraciones podrían calcularse algo así como $$ P_i=p_{i1}+\dots+p_{ik}.$$ Además, cada $latex p_{ij}$ dependía de ciertos parámetros, aunque eso no es lo más relevante para el caso.

Ciencia e ingeniería; estadística y... ¿y qué?

Los científicos llevan desde siempre (aunque con notable más fortuna en los últimos 300 o 400 años, a lo sumo) descubriendo y describiendo los pedacitos funcionales del universo. Los ingenieros, luego, los combinan y crean objetos útiles con ellos: aviones, ordenadores, prótesis, etc. Los estadísticos llevan cien o ciento cincuenta años largos tratando de domesticar el azar. Y han identificado una enorme variedad de herramientas con las que navegarse en un mundo casi ahogado en cifras.

¿Se puede predecir con Twitter?

Tal y como quedaron establecidos hace 80 años los parámetros para determinar si una hipótesis es o no plausible —por no calificarla de significativa o, más malévolamente, publicable— sólo una de cada veinte lo serían. Es un hecho que contrasta con la habilidad de los consultores que se dedican a esa labor tan difícil de acotar y que va desde la estadística a la minería de datos tocando otras áreas más o menos afines.

Cuando falta la variable más importante (II)

No sé si esto que voy a contar me obliga a tragarme mis propias palabras. Porque siempre he pensado que era poco menso que imposible. Pero hace unos pocos días escribí sobre el asunto y hoy traigo otro similar a colación. La variable más importante a la hora de construir un modelo es, precisamente, la que se quiere predecir. Casi todos los textos asumen que se conoce sin ningún género de dudas en, al menos, una determinada muestra que, además, corresponde más o menos a la población subyacente: si el paciente sobrevive o no; si la hipoteca entra en mora o no; si el cliente responde a la oferta o no, etc.

Cuando falta la variable más importante

Imaginemos que queremos predecir y, que toma valores 0 y 1 a partir de indicios (o variables) x mediante una función (un clasificador) f. Podemos visualizar el error de clasificación usando la matriz Efectivamente, el error es (perdónenme la notación) B+C. Como estadísticos estamos habituados a tratar de minimizar C mientras mantenemos B lo suficientemente pequeño. Un test es tanto más potente cuanto menor es C. Pero podemos reescribir B+C como

Churn y redes sociales: un ejemplo en telecomunicaciones

He leído recientemente el artículo Social Ties and their Relevance to Churn in Mobile Telecom Networks porque ilustra una técnica muy de moda: el análisis de redes sociales (SNA) en en ámbito de las telecomunicaciones y, en particular, la construcción de indicadores tempranos de baja (churn) de clientes de telefonía móvil. Más aún, permite rediseñar estrategias basadas en los resultados para retener clientes: al clasificarlos mejor usando técnicas de SNA, pueden diseñarse estrategias activas para aquellos que no sólo tienen una mayor predisposición a darse de baja sino, además, a arrastrar con ellos a parte de su entorno social.

Las preguntas oportunas brillan por su ausencia

Se levantó un revuelo hace unos días en la profesión a raíz de la noticia de que Target había descubierto que una adolescente estaba embarazada antes que sus mismos padres. En el artículo se explica cómo lo hacen: […] identificó unos 25 productos que, cuando se analizaban juntos, le permitían asignar a cada cliente una “probabilidad de embarazo”. Más aún, podía estimar la fecha del parto con una gran precisión, de manera que Target podía enviar cupones de acuerdo con la fase del embarazo.

El cuadrante mágico de Gartner y sus contradicciones internas

A la gente de Gartner le encanta su (impropiamente denominado) cuadrante mágico, que es una cosa tal como Dispone Gartner sobre él los productos de diversos proveedores (de informática de gestión) en función de dos variables, ability to execute y completeness of vision. El cuadrante está partido en cuatro sectores en los que se ubican: Los líderes (leaders), que son los que obtienen buena calificación en ambas dimensiones. Los aspirantes (challengers), a los que falta visión.

Artículos interesantes en la bitácora de un colega

Me envía Guillermo Córdoba, de Unica360, una selección de entradas de su bitácora que, creo, serán también del interés de mis lectores: Análisis RFM en retail. Empezando a segmentar clientes (I) Micromarketing y predicción de demanda ¿cuánto gastan en libros? Buzoneo segmentado, analizando el retorno de la campaña Cuadro de mando geográfico. BI y geomarketing en un click ¡Buena lectura!

Estrenos con ecos estadísticos (I): Moneyball

Mi extemporáneo periodo vacacional me ha dado, entre otras cosas, para ver dos películas en las que resuenan claros ecos relacionados con la estadística. La primera de ellas es Moneyball, basada en el libro homónimo. Cuenta la historia de un equipo de béisbol con escasos recursos que utiliza técnicas estadísticas —desafiando así los inveterados procedimientos subjetivos de los ojeadores— para identificar y fichar a los jugadores adecuados para alcanzar el objetivo último del deporte: ganar.

Un manifiesto (y juramento "hipocrático") para los modelizadores

Es algo viejo, pero vale la pena traerlo a estas páginas. Se trata de un manifiesto que comienza parejo a aquel otro ahora arrumbado: Un espectro recorre los mercados — el espectro de la falta de liquidez, la congelación del crédito y el fracaso de los modelos financieros. Habla, sí, principalmente, de finanzas. Pero en gran medida desde la óptica de la modelización y de su responsabilidad en el caos que vivimos ahora.

¿Qué es un "data scientist"?

Un data scientist es un señor que sabe de varias cosas que no se enseñan ni juntas ni bien por separado en nuestras universidades. Y que, además, se desaprenden rápido en las oficinas y covachuelas donde acabamos ejerciendo. A no ser, claro está, que uno tenga la vocación y la capacidad para nadar contracorriente. Extraigo de dataists el siguiente gráfico, que indica cuáles son los tres elementos técnicos —obviando los pertenecientes a otras dimensiones— fundamentales de los que se nutre una carrera como científico de datos.

Estrategia, predicción y proyección de la población española

Cayó el otro día en mis manos un artículo, Strategy under Uncertainty, que complementa bastante adecuadamente mi entrada del otro día sobre las proyecciones a corto plazo de la población española que realiza el INE. La estrategia concierne a sucesos futuros. Por ser futuros, son inciertos. Y el artículo describe cuatro niveles distintos de incertidumbre a los que contrapone una serie de posibles estrategias. Los niveles son: Un futuro suficientemente claro: las tendencias son muy claras y no se esperan sorpresas.