¿Cuál es el uso de vectores propios y valores propios en el aprendizaje automático?

Me gustaría decir algunas cosas sobre la respuesta de Vignesh Natarajan primero:

La maldición de la dimensionalidad no se trata de tener una gran cantidad de dimensiones, se trata de tener un algoritmo que tenga dificultades en una gran cantidad de dimensiones o, en términos más generales, una mala combinación de algoritmo / dimensionalidad por cualquier razón.

Algunos algoritmos funcionan muy bien en millones de dimensiones, como Perceptron y Linear SVM.

Lo que Vignesh describe para reducir la dimensionalidad se conoce como PCA (análisis de componentes principales), una técnica que es exactamente la misma que calcular la SVD (descomposición del valor singular) de su matriz de datos. La aclaración que quiero hacer es que con PCA no descubre las dimensiones principales de sus datos, descubre los componentes principales. Y cada componente es una combinación lineal de sus dimensiones. Por lo tanto, no puede usar PCA o SVD para saber si su columna “edad” juega un papel más importante que el “precio”, pero puede usarla para reducir efectivamente el número de dimensiones en sus datos, cuando lo necesite. Usar PCA o SVD solo porque no es una buena práctica.

Vignesh tiene toda la razón sobre la importancia de los vectores propios y los valores propios como una forma de cambiar la dimensionalidad de sus datos. Son la clave para SVD y PCA.

Solo para agregar algo a la respuesta original sobre vectores propios y valores propios en Machine Learning, también se usan en Agrupación espectral.

Luis.

En los problemas de aprendizaje automático, tenemos que lidiar con muchos datos. Cuando se trata de una gran cantidad de datos en forma de una gran cantidad de características, sería ventajoso si podemos intentar reducir la cantidad de características que se introducen en su algoritmo para escapar de la maldición de la dimensionalidad.

Una buena característica es aquella que representa una gran cantidad de puntos de datos. Una mala característica es aquella que no dice mucho acerca de los puntos de datos. En términos generales, si una característica particular tiene una gran variación, significa que proporciona más información sobre los datos. Los valores propios y los vectoes se utilizan para identificar aquellas dimensiones o direcciones que tienen una gran variación, describiendo así mejor los datos. Esto es útil cuando desea clasificar las dimensiones en función de su utilidad, y puede usarse para eliminar las dimensiones redundantes o débiles de la consideración.