¿Cuál es el significado de los vectores propios en PCA (análisis de componentes principales)?

Lo que hace la PCA es la reducción de dimensiones, pero cómo encuentra el plano donde proyectar los datos dados. Teniendo la matriz de características y observaciones, calcula la matriz de covarianza y calcula los primeros valores propios [matemáticos] r [/ matemáticos] junto con los vectores propios correspondientes. Formalmente, encontramos la dirección que maximiza la varianza de nuestros datos, es decir

[matemáticas] v_1 = \ arg \ max _ {\ | x \ | _2 = 1} \ left \ {x ^ TH ^ TH x \ right \}, [/ math]

que se sabe que es el vector propio (primer componente principal / más significativo) correspondiente al mayor valor propio de la matriz [matemática] H ^ TH. [/ matemática] Para dar un paso más, necesitamos “restar” la varianza existente de datos, por lo que calcular el componente principal [math] k ^ {\ text {th}} [/ math] se podría hacer de esta manera

[matemáticas] \ text {paso 1. Encuentre el correspondiente} H: \, \, \ hat {H} _ {(k)} = H – \ sum_ {s = 1} ^ {k-1} H v_ {s } v_s ^ T \\ [/ math]

[math] \ text {paso 2. Calcular} k \ text {-th componente principal}: [/ math] [math] v_k = \ arg \ max _ {\ | x \ | _2 = 1} \ left \ {x ^ T \ hat {H} _ {(k)} ^ T \ hat {H} _ {(k)} x \ right \} [/ math]

Estos pasos podrían realizarse [matemática] r [/ matemática] veces, donde la elección de [matemática] r [/ matemática] se realiza típicamente por la porción de varianza cubierta por los primeros componentes principales [matemática] r [/ matemática].

Aquí está la ilustración del método. Una vez más, los componentes principales son los vectores propios de los valores propios correspondientes.