¿Quitar variables no significativas?
Contexto: modelos de regresión con de varias a muchas variables. Muy particularmente cuando interesa la predicción.
Pseudoproblema: ¿quitamos las variables no significativas?
Los manualitos (muy queridos de enseñantes, porque les dan reglas sencillitas; muy queridos también de los aprendientes, por el mismo motivo) rezan que sí. Se quitan y a otra cosa.
La regla adulta es:
- Si el coeficiente es grande y tiene el signo correcto, ¡enhorabuena!
- Si el coeficiente es pequeño, la variable no hace ni bien ni mal. Y hay más motivos para dejarla que para quitarla.
- Pero si el coeficiente es grande y el signo es contrario a lo que cabría esperar (p.e., a más gripe menos fallecidos, a más capacidad económica menos compra media, etc.), ¡ah!, toca volver a replantear el modelo seriamente.
Nota: en lo anterior no he usado la palabra significativo. Si alguien quiere traducir grande y pequeño en términos de la ocurrencia de hace ochenta años de un inglés que sostenía que el tabaco era sano, allá él.