Ese es exactamente el problema con LSI, los coeficientes en la descomposición SVD no son fácilmente interpretables.
Lo que hace el SVD es construir una base y luego representar cada uno de sus puntos de datos como una combinación lineal de esa base. SVD hace esto minimizando la norma Frobenius de la reconstrucción.
Por lo tanto, no tiene sentido, excepto que esto minimiza el error de reconstrucción de la aproximación de rango inferior a su documento original por matriz de términos.
Si está haciendo un análisis de temas, LDA (asignación de Dirichlet latente) o NMF (factorización de matriz negativa) le proporcionará coeficientes que son más fáciles de entender. Lo mismo sucede si ejecuta K-Means o cualquier otro algoritmo de agrupación.
- ¿Qué es un archivo vectorial?
- ¿Cómo podemos saber si [math] \ displaystyle \ lim_ {n \ to \ infty} A ^ n [/ math] convergerá, donde A es una matriz cuadrada?
- ¿Por qué la norma ‘L0’ no es diferenciable y no convexa?
- ¿Qué opciones son necesariamente verdaderas?
- ¿Dónde no puedes usar operaciones de columna?
Algo importante es que los coeficientes negativos o positivos en la descomposición de LSI no necesariamente significan apego negativo o positivo a un tema, ya que la base también puede tener vectores negativos. Lo que es cierto es que un valor absoluto más alto generalmente significa una relación más fuerte con el vector correspondiente en la base, pero interpretar la base también es difícil, por lo que los coeficientes no son muy interesantes.
Gracias por el A2A.
Luis