La codificación de las variables categóricas en problemas de clústering es la fuente de la mayor parte de los problemas con que se encuentran los desdichados que se ven forzados a aplicar este tipo de técnicas.
Existen algoritmos que tratan de resolver el problema sin necesidad de realizar codificaciones numéricas. kamila es un paquete de R que implementa uno de ellos. El artículo que lo acompaña, A semiparametric method for clustering mixed data aporta los detalles, que en resumen son:
- Para las variables continuas, se usa algo parecido a k-medias (que viene a ser también como usar una mezcla de gaussianas).
- Para las categóricas, se buscan distribuciones multinomiales (dicho de otra manera, se modelan las variables categóricas como mezclas de multinomiales).
- Los clústers están definidos por parejas de las anteriores.
No lo he probado, pero tiene buena pinta. Al menos, mejor que la habitual chocolatada.