En LSA, podría decir que S le muestra la ‘amplificación’ o la escala que se ha normalizado fuera de cada dimensión de característica. Los valores más grandes van con dimensiones que explican diferencias más grandes en el espacio original. Las dimensiones, y por lo tanto los valores en diagonal en S, se ordenan de mayor a menor en la SVD completa.
El objetivo de una SVD truncada en LSA es hacer que U / V sea de bajo rango. Esto solo significa ignorar las dimensiones de características que importan menos. Esto solo significa las dimensiones cuyos valores en S son más pequeños. Y convenientemente esos son todos los valores después de cierto punto. Y convenientemente, la mayoría de los algoritmos proceden construyendo los valores de U / V / S de mayor a menor, por lo que simplemente se detiene en un punto determinado sin terminar la SVD.
Entonces, podría decir que S es lo que encuentra las dimensiones que importan, y elimina las dimensiones poniendo a cero los valores pequeños en S, que es como soltar las columnas correspondientes en U / V, y en la práctica nunca las calculó en absoluto.
Ya que dices “coseno”, ¿estás preguntando acerca de la similitud de coseno entre pares de palabras o pares de documentos? Para eso, no, solo operas en el espacio proyectado. Simplemente use los valores en V o U, respectivamente, para calcular la distancia del coseno.
- ¿Por qué es OLS solucionable a partir de álgebra lineal simple? ¿Por qué es especial la pérdida de L2?
- En un modelo de entrada-salida, ¿cuál es el significado de los vectores propios de la matriz de entrada-salida?
- ¿Necesito aprender álgebra lineal antes de sumergirme en el aprendizaje automático?
- ¿Qué es un buen motor similar a una base de datos para almacenar y operar en matrices?
- ¿Por qué se considera que la desigualdad de Cauchy-Schwarz es una de las desigualdades más importantes en matemáticas? ¿Cuáles son sus diversas aplicaciones?