Distancias (IV): la solución rápida y sucia

Prometí (d)escribir una solución rápida y sucia para la construcción de distancias cuando fallan las prêt à porter (euclídeas, Gower, etc.).

Está basada en la muy socorrida y casi siempre falsa hipótesis de independencia entre las distintas variables x1,,xn y tiene la forma

d(xa,xb)=iαidi(xia,xib)

donde los valores αi son unos pesos que me invento (¡eh!, Euclides también se inventó que αi=1 y nadie le frunció el ceño tanto como a mí tú ahora) tratando de que ponderen la importancia relativa que tiene la variable i en el fenómeno que me interesa.

Luego, las di son cosas totalmente ad hoc según lo que represente la variable i: puede que tome logaritmos y que añada algún valor máximo antes de restar los valores; puede que sea una distancia 0-1; puede que dependa de si los códigos postales, de serlo, correspondan o no a la misma provincia; puede que la distancia sea cero si coinciden, 1 si son de la misma provincia y 2 si no lo son; puede que me base en el número de meses de diferencia, etc. Lo importante es la dimensión artesanal del proceso, del cariño que se le profese y del tiempo disponible.