¿Cuál es la interpretación de los puntajes negativos en los vectores base obtenidos con LSI?

Ese es exactamente el problema con LSI, los coeficientes en la descomposición SVD no son fácilmente interpretables.

Lo que hace el SVD es construir una base y luego representar cada uno de sus puntos de datos como una combinación lineal de esa base. SVD hace esto minimizando la norma Frobenius de la reconstrucción.

Por lo tanto, no tiene sentido, excepto que esto minimiza el error de reconstrucción de la aproximación de rango inferior a su documento original por matriz de términos.

Si está haciendo un análisis de temas, LDA (asignación de Dirichlet latente) o NMF (factorización de matriz negativa) le proporcionará coeficientes que son más fáciles de entender. Lo mismo sucede si ejecuta K-Means o cualquier otro algoritmo de agrupación.

Algo importante es que los coeficientes negativos o positivos en la descomposición de LSI no necesariamente significan apego negativo o positivo a un tema, ya que la base también puede tener vectores negativos. Lo que es cierto es que un valor absoluto más alto generalmente significa una relación más fuerte con el vector correspondiente en la base, pero interpretar la base también es difícil, por lo que los coeficientes no son muy interesantes.

Gracias por el A2A.
Luis

Me ha resultado más útil pensar en tales vectores como coordenadas en un espacio. Eso tiene mucho sentido cuando considera que los vectores de columna son ortogonales y [math] \ Sigma [/ math] describe cómo “estirar” el espacio en cada una de estas dimensiones. Teniendo en cuenta esa comprensión, lo único que es realmente relevante es la magnitud de los valores individuales, ya que solo vamos a calcular un producto de punto (o coseno u otra comparación de vector a vector) en los valores en [matemáticas] U [/ matemáticas]. En cierto modo, LSI puede considerarse como una variante del modelo vectorial original de recuperación de información, pero con un espacio euclidiano más útil en el que viven los términos y documentos. Incluso podría intercambiar los signos de una columna completa (tanto en [matemática] U [/ matemática] como [matemática] V [/ matemática]), lo que correspondería a un reflejo del espacio a lo largo de la dimensión representada por esa columna.

El modelo se calcula con LSI (o PCA u otro método) y la proyección de un nuevo vector de entrada en este espacio obtiene valores negativos. Pero así es como funcionan las proyecciones lineales.

Suponga que los vectores de base se proyectan sobre e-1 = (1, 0) y e-2 = (0,1)
entonces un nuevo vector de entrada con valores (-1, -1) obtendría valores de -1 y -1 asignados a las dos dimensiones básicas, por lo que estos valores pueden ser negativos.