Consultoría

Artículos interesantes en la bitácora de un colega

Me envía Guillermo Córdoba, de Unica360, una selección de entradas de su bitácora que, creo, serán también del interés de mis lectores:

¡Buena lectura!

Estrenos con ecos estadísticos (I): Moneyball

Mi extemporáneo periodo vacacional me ha dado, entre otras cosas, para ver dos películas en las que resuenan claros ecos relacionados con la estadística.

La primera de ellas es Moneyball, basada en el libro homónimo. Cuenta la historia de un equipo de béisbol con escasos recursos que utiliza técnicas estadísticas —desafiando así los inveterados procedimientos subjetivos de los ojeadores— para identificar y fichar a los jugadores adecuados para alcanzar el objetivo último del deporte: ganar.

Un manifiesto (y juramento "hipocrático") para los modelizadores

Es algo viejo, pero vale la pena traerlo a estas páginas. Se trata de un manifiesto que comienza parejo a aquel otro ahora arrumbado: Un espectro recorre los mercados — el espectro de la falta de liquidez, la congelación del crédito y el fracaso de los modelos financieros.

Habla, sí, principalmente, de finanzas. Pero en gran medida desde la óptica de la modelización y de su responsabilidad en el caos que vivimos ahora. Y, aunque no tiene desperdicio, su colofón de es de universal aplicación y provecho para los modelizadores todos, incluidos los ajenos al mundo de las finanzas. Es una suerte de juramento hipocrático para modelizadores con las siguientes cinco promesas:

Limpieza de cartera y miscelánea de artículos

He decidido limpiar mi cartera. Llevo en ella unos cuantos artículos impresos que me acompañan desde hace mucho y que, por un lado, me da pena tirar y, por el otro, no me aportan en el día a día. Voy a reciclar el papel sobre el que los imprimí y, a la vez, dejar en enlace a ellos por si a mí un día (o a alguno de mis lectores otro) me da por volver sobre ellos. Son:

¿Qué es un "data scientist"?

Un data scientist es un señor que sabe de varias cosas que no se enseñan ni juntas ni bien por separado en nuestras universidades. Y que, además, se desaprenden rápido en las oficinas y covachuelas donde acabamos ejerciendo. A no ser, claro está, que uno tenga la vocación y la capacidad para nadar contracorriente.

Extraigo de dataists el siguiente gráfico,

que indica cuáles son los tres elementos técnicos —obviando los pertenecientes a otras dimensiones— fundamentales de los que se nutre una carrera como científico de datos.

Visualización de la incertidumbre sobre el futuro

Recomiendo a mis lectores el artículo Visualizing Uncertainty About the Future de D. Spiegelhalter, M. Pearson e I. Short. Trata sobre qué tipo de representaciones gráficas son más adecuadas para transmitir información acerca de la probabilidad de fenómenos futuros a distintos tipos de audiencias, incluidas las más anuméricas.

Abarca desde los incipientes trabajos de Nightingale y Neurath hasta Gapminder y los más modernos desarrollos de la infografía. Aplaude, por ejemplo, la iniciativa del Banco de Inglaterra de publicar información sobre la posible evolución de indicadores económicos futuros de la forma

Estrategia, predicción y proyección de la población española

Cayó el otro día en mis manos un artículo, Strategy under Uncertainty, que complementa bastante adecuadamente mi entrada del otro día sobre las proyecciones a corto plazo de la población española que realiza el INE.

La estrategia concierne a sucesos futuros. Por ser futuros, son inciertos. Y el artículo describe cuatro niveles distintos de incertidumbre a los que contrapone una serie de posibles estrategias. Los niveles son:

  1. Un futuro suficientemente claro: las tendencias son muy claras y no se esperan sorpresas. En resumen, hay un único escenario posible y la estrategia adecuada consiste en adaptarse a él.
  2. Varios futuros alternativos: existe un número concreto de alternativas o escenarios, cada uno de las cuales con su propia probabilidad de ocurrir. Por ejemplo, los bares barajaron recientemente dos posibles alternativas: la futura ley podría prohibir fumar taxativamente (como ocurrió) o permitir tal vicio en áreas específicas y adaptadas. A cada suceso puede asignársele una probabilidad discreta, diría un matemático.
  3. Un rango de futuros: no existen escenarios discretos y concretos, pero sí un rango de opciones: la demanda puede ser cualquier cifra entre 0 y 1000, etc. Nuestro matemático entendería que este es un problema en el que rigen leyes de probabilidad continua.
  4. Absoluta incertidumbre: ocurre cuando es imposible plantear cualquier tipo de función de probabilidad. No obstante, aunque el artículo recoge algunos casos, subraya también que este tipo de situaciones son inestables y suelen degenerar con el tiempo en alguna de las situaciones anteriores.

Las tres estrategias fundamentales consisten en:

Riesgo en proyectos de IT

Tu proyecto de IT puede contener más riesgo del que piensas. De verdad. Dan fe de ello Bent Flyvbjerg y Alexander Budzier.

Los autores describen en el artículo que he enlazado encima varios proyectos que fracasaron estrepitosamente y proporcionan algunos consejos para evitar ese tipo de desenlaces. Sin embargo, para quienes siguen esta bitácora, la reflexión más interesante es la siguiente:

Al focalizarse en las medias en lugar de los casos extremos más dañiños, la mayor parte de los gestores y consultores han ignorado el verdadero problema.

DataWrangler: limpieza y transformación interactiva de datos

Quiero dar a conocer hoy una alternativa a Google Refine de la que he tenido noticia no hace mucho: DataWrangler.

Se trata de una herramienta concebida para acelerar el proceso de manipulación de datos para crear tablas que exportar luego a Excel, R, etc.

Los interesados pueden echarle un vistazo al artículo que escribieron sus autores, Wrangler: Interactive Visual Specification of Data Transformation Scripts y, cómo no, usarlo.

Datos grandes, colas largas

Codd desarrolló el modelo relacional —la base de casi todos los actuales sistemas de bases de datos— a finales de los años sesenta. El modelo relacional, basado en la lógica proposicional, suponía una ventaja sustancial con respecto a los métodos anteriores de almacenar información y bien implementado permite resolver una serie de problemas que afectaban a los sistemas anteriores:

  • Evita la redundancia de los datos.
  • Minimiza los problemas de actualización de los datos en las tablas.
  • Protege la integridad de los datos.
  • Etc.

Sin embargo, hay motivos por los que dicho esquema no es enteramente válido en contextos en los que se manejan datos grandes (para una definición sensata sobre lo que son “datos grandes”, léase este artículo).

La estadística del número tres

Una consulta que he recibido hoy me ha hecho acordar que tenía pendiente una entrada sobre la estadística del número tres, es decir, ¿qué hacer cuando tenemos sólo tres casos?

Hace tiempo publiqué en estas páginas un vídeo sobre este asunto. Lo que no sabía entonces es que existen (o existieron) estadísticos que estudiaron concienzudamente el problema. He aquí unas cuantas referencias:

  • Youden, W. J., The Best Two out of Three?", J. Chem. Educ., diciembre de 1949, 673-674
  • Lieblein, J., Properties of Certain Statistics Involving the Closest Pair in a Sample of Three Observations, Journal of Research of the National Bureau of Standards, marzo de 1952
  • Youden, W.J., The fallacy of the best two out of three, NBS Technical News Bulletin 33, 77, julio de 1949
  • Youden, W. J., Sets of Three Measurements, Scienfic Monthly, 77, septiembre de 1953
  • … y otras que aparecen en las bibliografías de los anteriores o que los citan.

En realidad, estos artículos tienen que ver, mucho más que con el caso que recoge el vídeo, con el de la medición de fenómenos en laboratorio y su fiabilidad. Se ve que es (o fue) habitual tomar tres medidas de un mismo experimento y dar por buena después la media de las dos más próximas. Los artículos anteriores discuten la conveniencia o no de esa práctica.

Dinero y motivación

¿Nos motiva el dinero? ¿Hasta qué punto? ¿En todo tipo de tareas? El siguiente vídeo de Dan Pink, basado en su libro Drive: The Surprising Truth About What Motivates Us, subraya la importancia de otros factores —autonomía, maestría, propósito— como directores de nuestra actividad.

Aunque extraído de una discusión acerca de la conveniencia de pagar a los desarrolladores de R, los más agudos de mis lectores sabrán extrapolar sus enseñanzas a otras circunstancias cotidianas.

Clústering (IV): una digresión real como la vida misma

Entré a trabajar en una consultora hace un tiempo ?no diré si mucho o poco? y uno de mis primeros encargos fue el de supervisar el desarrollo e implementación de unos modelos que habían creado unos compañeros. Les eché un vistazo y me sorprendió que sin mayor miramiento habían eliminado aquellas observaciones cuya variable objetivo tomaba el 4% de los valores más altos y el 4% de los más pequeños.