Consultoría

Algunos problemas de la regresión paso a paso ("stepwise")

Fueron problemas planteados por Frank Harrell, recopilados aquí y ahora traducidos por mí para mi bitácora.

Problemas de la regresión paso a paso:

  • La R-cuadrado obtenida está muy sesgada hacia arriba.
  • Los test F y chi-cuadrado que aparecen al lado de las variables no siguen dichas distribuciones.
  • Los intervalos de confianza son demasiado (e incorrectamente) estrechos.
  • Los p-valores obtenidos no tienen el significado esperado y el de corregirlos adecuadamente es un problema muy difícil.
  • Proporciona coeficientes sesgados y excesivamente grandes.
  • Tiene problemas serios en caso de colinealidad en las variables.
  • Está basado en métodos que fueron pensados para probar hipótesis preestablecidas.
  • Incrementar el número de muestras no corrige los problemas anteriores.
  • Nos permite no tener que pensar sobre el problema.
  • Consume mucho papel.

Algunas conclusiones:

En recuerdo de Leo Breiman

Recomiendo leer esto. Es un artículo que repasa la labor de Leo Breiman, pionero en esa nueva forma de plantear el análisis de datos que acabó convirtiéndose en la minería de datos y de algunos de los algoritmos y métodos más comunes que conforman la caja de herramientas de quienes lo practican hoy en día. Entre ellos, los árboles de decisión y de regresión y los random forests.

Así comienza el artículo:

How many theoretical probabilists walk away from a tenured faculty position at a top university and set out to make their living as consultants? How many applied consultants get hired into senior faculty positions in first-rate research universities? How many professors with a fine reputation in their field, establish an equally fine reputation in a different field, after retirement? Leo Breiman did all of these things and more.

Cuatro principios para tomar mejores decisiones

Proceden de un número de McKinsey Quarterly de este año y se organizan alrededor del acrónimo WARP:

  • W (widen your options, incrementa tus opciones): considera al menos dos opciones robustas para cada toma de decisiones.
  • R (reality-test your assumptions, somete tus hipótesis a un baño de realidad): trata de realizar pequeñas pruebas de verificación.
  • A (attain some distance, distánciate): trata de revisar el asunto como si te fuese ajeno, desde afuera.
  • P (prepare to be wrong, prepárate para el fracaso): plantea un plan de salida claro desde el principio: si no logro esto y esto en tal plazo…

Sexo, deporte y la cantidad de información mutua

Perdón por el titular. No soy inasequible a las modas.

La cuestión del día de hoy es la siguiente: tenemos una variable X inobservable y otra variable Y potencialmente correlacionada con X. ¿Cuánto podemos decir de X de conocida Y?

Supongamos que ambas son binarias. Si conozco Y poseo 1 bit de información. Si solo conozco X (que me da pistas sobre Y) conoceré una fracción de un bit de información (sobre Y).

Lo relevante, arriba y a la izquierda

No es lo más importante del mundo. Pero considero una descortesía de un tabulador de datos para con sus usuarios que no ponga la información más relevante arriba y a la izquierda.

Por ejemplo, en el último Informe Trimestral de la CMT uno encuentra la información así:

No es terrible, pero la información que más a mano aparece es la menos interesante, la del 2005. Para ver el último dato hay que desplazarse (i.e., hacer scroll) hasta el fondo a la derecha.

BI Survey 13: el veredicto del cliente

Un cliente esporádico mío, BARC, me ha pedido que le ayude a divulgar su encuesta periódica de evaluación de herramientas de lo que llaman business intelligence.

He accedido en parte, sí, porque hay que estar bien con los clientes. Sobre todo los esporádicos.

Pero también porque el mundo del BI es sumamente opaco e impera la información asimétrica. Quienes compran herramientas como SAP, Cognos, SAS, Microstrategy, etc. están a dos velas de lo que ocurre en el edificio de al lado, de los problemas que van a encontrar en su implementación, de su rendimiento en producción. Están casi totalmente a expensas de los cantos de sirena de los vendedores.

Pero mañana seguiremos usando Excel

Inmerso en asuntos que los más catalogarían de friquis, he permanecido ignorante de los más de los infelices sucesos que nos ha regalado el mundo durante los últimos días.

Pero sí que he tenido ocasión de enterarme de algo de ese runrún, imagino que conocido de los más, sobre unos economistas encopetados que usanban Excel (y unos economistas muy encopetados). Noticia que se suma a otra que guardaba para comentarla un día: cómo JP Morgan estuvo calculando su VaR erróneamente durante años por los mismos motivos.

¿Cómo vota la gente?

La gente vota de muchas maneras. A bote pronto, uno diría que lo hace cada cuatro años con papeletas y en medio de parafernalia de listas cerradas, mítines y similares aditamentos.

Pero hay otros que opinan que hay mecanismos alternativos de voto. La gente puede votar en Twitter, por ejemplo. Y algunos conceden a esos votos una relativa potestad para adivinar o, incluso, influenciar fenómenos de importancia económica, política o social.

Quienes entablan batallas numéricas después de las manifestaciones, qué duda cabe que atribuyen efectos plebiscitarios a que la cola de la marcha llegase o no a Atocha cuando la cabecera entraba a Colón.

Sobre los límites de la minería de datos

Guardaba en la cartera un artículo que ya pronto cumple sus cinco años. Sirve de contrapunto a toda esa literatura que describe la minería de datos como una suerte de panacea, la cómoda senda hacia un futuro de armonía y color.

Se trata de una entrevista a Peter Fader sobre a lo que la minería de datos alcanza y no alcanza.

Los estadísticos se sienten relativamente cómodos ascendiendo de lo particular a lo general (por ejemplo, calculando una media). En contraposición, la promesa de la minería de datos consiste en la predicción del comportamiento de los individuos, de cada individuo, a partir de modelos construidos sobre repositorios de datos cada vez más extensos y perfiles más detallados de cada sujeto.

El (escaso) beneficio marginal de trabajar

Ayer hablé con un tipo. Es ingenerio superior, con quince años de experiencia y… desempleado desde hace unos meses. Me contaba que le habían ofrecido un trabajo (en condiciones, además, sorprendentemente más beneficiosas de lo que se ve por ahí en estos días). Pero que, me contaba, el beneficio marginal para aceptarlo (que conllevaría renunciar a la prestación por desempleo, etc.) le resultaba insuficiente. Mejor seguir desempleado.

Y él sin producir, el estado teniendo que abonarle la prestación y la empresa teniendo que seguir rebuscando entre currículos. Todo carga muerta social. ¿Es este nuestro sino? ¿O pueden plantearse alternativas inteligentes en las que, sin que nadie resulte perjudicado, se reduzca el coste social a las que dan lugar este tipo de coyunturas?