Sobre los coeficientes de los GLM en Scikit-learn
Pensé que ya había escrito sobre el asunto porque tropecé con él en un proyecto hace un tiempo. Pero mi menoria se había confundido con otra entrada, Sobre la peculiarisima implementacion del modelo lineal en (pseudo-)Scikit-learn, donde se discute, precisamente, un problema similar si se lo mira de cierta manera o diametralmente opuesto si se ve con otra perspectiva.
Allí el problema era que Scikit-learn gestionaba muy sui generis el insidioso problema de la colinealidad. Precisamente, porque utiliza un optimizador ad hoc y no estándar para ajustar el modelo lineal.
El problema con la logística es el contrario: hipercorrige subrepticiamente la teoría clásica de modo que uno espera GLM pero obtiene la regularización ridge. Que no está mal, pero que exige, por ejemplo, cierta estandarización previa de las variables: todas deberían tener un rango de variabilidad similar porque ridge penaliza las nominalmente más grandes.
Más detalles, donde Gelman.