PCA y LSI son aplicables en dos contextos diferentes. Sin embargo, ambos terminan haciendo SVD (Descomposición de valor singular) en última instancia, en lo que hacen SVD es algo que deberá observar. En LSI, el contexto se proporciona en los números a través de una matriz de documentos a término. En el PCA, el contexto propuesto se proporciona en los números a través de una matriz de covarianza. PCA se puede usar para cualquier dato de alta dimensión. Es una clase de análisis más general para encontrar un mejor espacio de características para representar sus datos. LSI, por otro lado, es muy específico para los corpus de texto al analizar qué términos son más similares y cuál es la clase latente de las palabras que están en un corpus.
Ambos aprovechan la idea de que el significado puede extraerse del contexto; Calculan la transformación ortogonal que decorelaciona las variables y mantiene las que tienen la mayor varianza. En cuanto a por qué se usa LSI: en el mundo real, la matriz de términos de documento D es tan escasa que las medias de columna están cerca de cero, y la matriz de correlación está cerca de la matriz de covarianza. Para ser breve, LSI encuentra el mejor subespacio lineal, mientras que PCA encuentra el mejor subespacio lineal afín. Para encontrar el mejor subespacio lineal afín, primero traduzca los vectores de características de modo que su centroide se encuentre en el origen, luego encuentre el mejor subespacio lineal.
Para más recursos:
PCA no es LSI
Página en aclweb.org
- ¿Qué es un buen libro sobre funciones de varias variables bajo análisis real?
- ¿Cuál es una buena manera de entender los tensores?
- ¿Cuál es el significado físico del rizo del rizo de algún campo vectorial?
- ¿Cuáles son algunas aplicaciones de los espacios vectoriales en física?
- Cálculo: ¿Cambia el máximo / mínimo global de una función si se gira con respecto al eje?