UMAP, tSNE y todas esas cosas
Estaba repasando cosas sobre reducción de la dimensionalidad y, en concreto, UMAP y tSNE. Me ha parecido conveniente replantear las cosas sobre primeros principios para que todo se entienda mejor.
El problema es el siguiente:
- Tenemos $K$ puntos $x_i$ en un espacio de dimensión $N$.
- Buscamos su correspondencia con otros $K$ puntos $y_i$ en un espacio de dimensión $n « N$.
- De manera que las configuraciones de los $x_i$ y los $y_i$ sean similares en el sentido de que la matriz de distancias $(d(x_i,x_j))$ sea parecida a la $(d(y_i, y_j))$. Eso quiere decir que parejas de puntos próximos en el primer espacio deberían mapearse en parejas de puntos próximos en el segundo; parejas de puntos alejados en parejas de puntos alejados, etc.
En concreto, se buscaría minimizar algo así como, en primera aproximación,