¿Cuál es la importancia de S en la reconstrucción de las relaciones de coseno de fila de M en B = U * S con M = U * S * V ‘(SVD)?

En LSA, podría decir que S le muestra la ‘amplificación’ o la escala que se ha normalizado fuera de cada dimensión de característica. Los valores más grandes van con dimensiones que explican diferencias más grandes en el espacio original. Las dimensiones, y por lo tanto los valores en diagonal en S, se ordenan de mayor a menor en la SVD completa.

El objetivo de una SVD truncada en LSA es hacer que U / V sea de bajo rango. Esto solo significa ignorar las dimensiones de características que importan menos. Esto solo significa las dimensiones cuyos valores en S son más pequeños. Y convenientemente esos son todos los valores después de cierto punto. Y convenientemente, la mayoría de los algoritmos proceden construyendo los valores de U / V / S de mayor a menor, por lo que simplemente se detiene en un punto determinado sin terminar la SVD.

Entonces, podría decir que S es lo que encuentra las dimensiones que importan, y elimina las dimensiones poniendo a cero los valores pequeños en S, que es como soltar las columnas correspondientes en U / V, y en la práctica nunca las calculó en absoluto.

Ya que dices “coseno”, ¿estás preguntando acerca de la similitud de coseno entre pares de palabras o pares de documentos? Para eso, no, solo operas en el espacio proyectado. Simplemente use los valores en V o U, respectivamente, para calcular la distancia del coseno.