Tres sigmas o nanay
El otro día hablaba con una colega sobre una charla a la que habíamos asistido. Yo le decía que sí, que estaba bien, pero que todo lo que habían contado era mentira. Debí haber sido más preciso y decir que no era verdad, que es distinto. Pero las canapescas circunstancias no eran propicias para el distingo. Mi interlocutora me escuchaba, pienso, entre sorprendida e incrédula. Todavía está en la edad en la que hay que creérselo todo —sí, esa edad y esa obligación existe— y tiempo tendrá de dejarse envenenar por el nihilismo. Es lo suficientemente lista como para eso.
Yo, por mi parte, estoy en la edad de esparcir el ébola del escepticismo. Que esa edad y esa obligación existen también.
Muchos lectores míos habrán también tropezado con alguno de esa muchedumbre de artículos en los que se prueba que este o aquel criterio distinguen a las compañías más exitosas en bolsa de las que no, es decir, que explican la dinámica de los retornos esperados transversales (o cross-section of expected returns). Y si en el resumen de un artículo al respecto veo que los autores escriben
Echoing a recent disturbing conclusion in the medical literature, we argue that most claimed research findings are likely false.
no puedo sino traerlo intravenosamente a estas páginas mías.
En resumen, sí, el artículo viene a decir que han sido tantos y tantos los autores que a lo largo de los últimos años han encontrado relaciones causales entre la liquidez de la acción, el flujo de caja, el tamaño del spread, etc. y el valor de la acción que la cosa se está saliendo de madre. Y son tantos, además, los que esperamos encontrar escritos en los próximos años que bien habría que endurecer el estándar de publicación so pena de quedarnos sin bosques.
El resto del resumen describe la situación mejor que yo lo haría:
Hundreds of papers and hundreds of factors attempt to explain the cross-section of expected returns. Given this extensive data mining, it does not make any economic or statistical sense to use the usual significance criteria for a newly discovered factor, e.g., a t-ratio greater than 2.0. However, what hurdle should be used for current research? Our paper introduces a multiple testing framework and provides a time series of historical significance cutoffs from the first empirical tests in 1967 to today. We also project forward 20 years assuming the rate of factor production remains similar to the experience of the last few years. We argue that today a newly discovered factor needs to clear a much higher hurdle, with a t-ratio greater than 3.0.
Es decir, exigir p-valores del orden del 0.003.
Ah, y el artículo de la literatura médica al que se refieren los autores está comentado aquí.