kamila: Clústering con variables categóricas

La codificación de las variables categóricas en problemas de clústering es la fuente de la mayor parte de los problemas con que se encuentran los desdichados que se ven forzados a aplicar este tipo de técnicas.

Existen algoritmos que tratan de resolver el problema sin necesidad de realizar codificaciones numéricas. kamila es un paquete de R que implementa uno de ellos. El artículo que lo acompaña, A semiparametric method for clustering mixed data aporta los detalles, que en resumen son:

  • Para las variables continuas, se usa algo parecido a k-medias (que viene a ser también como usar una mezcla de gaussianas).
  • Para las categóricas, se buscan distribuciones multinomiales (dicho de otra manera, se modelan las variables categóricas como mezclas de multinomiales).
  • Los clústers están definidos por parejas de las anteriores.

No lo he probado, pero tiene buena pinta. Al menos, mejor que la habitual chocolatada.