Una cosa que me irrita de muchos artículos de estadística

Hay una cosa que encuentro irritante en muchos artículos de estadística. Supongamos que existe una técnica A y que invento una técnica B. Entonces escribo un artículo en el que hablo de A, describo B, pruebo si procede algún teorema y, finalmente, me dispongo a compararlo con A.

Naturalmente, tanto A como B tienen hipótesis de partida: que las observaciones sean iid, que sean normales,…

Lo natural sería crear datos artificiales de acuerdo con las hipótesis subyacentes de A y comparar sobre ellos ambas técnicas. Además, tal vez, crear conjuntos de datos estresados para comparar A y B fuera del área de confort de A. Pero siempre utilizando datos en los que se conoce la verdad, es decir, el nivel de ruido, la intensidad de la señal, la correlación entre las variables, etc. Eso solo se consigue con datos artificiales, creados por nosotros.

¿Y qué es lo que me irrita?

Que exista A, que alguien invente B y que los compare usando datos de una encuesta de 1967 de niños maoríes. Precisamente, porque desconocemos la estructura de esos datos y no sabemos si los resultados de A son buenos, si los de B son mejores, posiblemente, ambos pésimos. Y que encima, se publique pasando todos los filtros habidos y por haber.