La codificación de las variables categóricas en problemas de clústering es la fuente de la mayor parte de los problemas con que se encuentran los desdichados que se ven forzados a aplicar este tipo de técnicas.

Existen algoritmos que tratan de resolver el problema sin necesidad de realizar codificaciones numéricas. kamila es un paquete de R que implementa uno de ellos. El artículo que lo acompaña, A semiparametric method for clustering mixed data aporta los detalles, que en resumen son:

  • Para las variables continuas, se usa algo parecido a k-medias (que viene a ser también como usar una mezcla de gaussianas).
  • Para las categóricas, se buscan distribuciones multinomiales (dicho de otra manera, se modelan las variables categóricas como mezclas de multinomiales).
  • Los clústers están definidos por parejas de las anteriores.

No lo he probado, pero tiene buena pinta. Al menos, mejor que la habitual chocolatada.