¿Qué es un vector propio de una matriz de covarianza?

Una de las explicaciones más intuitivas de los vectores propios de una matriz de covarianza es que son las direcciones en las que los datos varían más .

(Más precisamente, el primer vector propio es la dirección en la que los datos varían más, el segundo vector propio es la dirección de mayor varianza entre aquellos que son ortogonales (perpendiculares) al primer vector propio, el tercer vector propio es la dirección de mayor varianza entre aquellos ortogonales a los dos primeros, y así sucesivamente.)

Aquí hay un ejemplo en 2 dimensiones [1]:

Cada muestra de datos es un punto bidimensional con coordenadas x, y. Los vectores propios de la matriz de covarianza de estas muestras de datos son los vectores u y v; u, flecha más larga, es el primer vector propio y v, la flecha más corta, es el segundo. (Los valores propios son la longitud de las flechas). Como puede ver, el primer vector propio apunta (desde la media de los datos) en la dirección en que los datos varían más en el espacio euclidiano, y el segundo vector propio es ortogonal (perpendicular ) a la primera.

Es un poco más complicado visualizarlo en 3 dimensiones, pero aquí hay un intento [2]:


En este caso, imagine que todos los puntos de datos se encuentran dentro del elipsoide. v1, la dirección en la que los datos varían más, es el primer vector propio (lambda1 es el valor propio correspondiente). v2 es la dirección en la que los datos varían más entre aquellas direcciones que son ortogonales a v1 . Y v3 es la dirección de mayor variación entre aquellas direcciones que son ortogonales a v1 y v2 (aunque solo hay una de esas direcciones ortogonales).

[1] Imagen tomada de la conferencia de Duncan Gillies sobre análisis de componentes principales
[2] Imagen tomada del Cruce de Fibras en el Cerebro Humano Representado con Imágenes de MR Tensor de Difusión

Dado un conjunto de variables aleatorias [matemática] \ {x_1,…, x_n \} [/ matemática], la matriz de covarianza [matemática] A [/ matemática] se define de modo que [matemática] A_ {i, j} = \ text {Cov} (x_i, x_j) [/ math]. Podemos representar una combinación lineal [math] \ sum b_i x_i [/ ​​math] como un vector [math] x = (b_1,…, b_n) [/ math].

Resulta que la covarianza de dos de estos vectores [matemática] x [/ matemática] y [matemática] y [/ matemática] puede escribirse como [matemática] \ text {Cov} (x, y) = x ^ tAy [/ matemáticas]. En particular, [math] \ text {Var} (x) = x ^ tAx [/ math]. Esto significa que la covarianza es una forma bilineal.

Ahora, dado que [math] A [/ math] es una matriz simétrica real, existe una base ortonormal para [math] \ mathbb {R} ^ n [/ math] de vectores propios de [math] A [/ math]. Orthonormal en este caso significa que la norma de cada vector es 1 y son ortogonales con respecto a [math] A [/ math], es decir [math] v_1 ^ tAv_2 = 0 [/ math], o [math] \ text { Cov} (v_1, v_2) = 0 [/ matemática].

Luego, suponga que [math] v [/ math] es un vector propio de unidad de [math] A [/ math] con eigenvalue [math] \ lambda [/ math]. Entonces [math] \ text {Var} (v) = \ lambda \ | v \ | ^ 2 = \ lambda [/ math].

Hay un par de conclusiones interesantes que podemos sacar de esto. Primero, dado que los vectores propios forman una base [matemática] \ {v_1, …, v_n \} [/ matemática], cada combinación lineal de las variables aleatorias originales puede representarse como una combinación lineal de las variables aleatorias independientes [matemática] v_i [/matemáticas]. En segundo lugar, la varianza de cada vector unitario es un promedio ponderado de los valores propios. Esto significa que el vector propio principal es la dirección de mayor varianza, el siguiente vector propio tiene la mayor varianza en el subespacio ortogonal, y así sucesivamente.

En resumen, los vectores propios son combinaciones lineales no correlacionadas del conjunto original de variables aleatorias .

La aplicación principal de esto es el Análisis de Componentes Principales. Si tiene características [matemáticas] n [/ matemáticas], puede encontrar vectores propios de la matriz de covarianza de las características. Esto le permite representar los datos con características no correlacionadas. Además, los valores propios le indican la cantidad de variación en cada característica, lo que le permite elegir un subconjunto de las características que retienen la mayor cantidad de información sobre sus datos.

El vector propio más grande de una matriz de covarianza apunta en la dirección de la varianza más grande. Todos los demás vectores propios son ortogonales al más grande.

Ahora, si esta dirección de la mayor varianza está alineada con el eje (las covarianzas son cero), entonces los valores propios simplemente corresponden a las varianzas de los datos:


Se vuelve un poco más complicado si la matriz de covarianza no es diagonal, de modo que las covarianzas no son cero. En este caso, los componentes principales (direcciones de mayor varianza) no coinciden con los ejes, y los datos se rotan. Los valores propios aún corresponden a la dispersión de los datos en la dirección de la mayor varianza, mientras que los componentes de varianza de la matriz de covarianza aún definen la propagación de los datos a lo largo de los ejes:


Se puede encontrar una discusión en profundidad de cómo se puede interpretar la matriz de covarianza desde un punto de vista geométrico (y la fuente de las imágenes anteriores) en: Una interpretación geométrica de la matriz de covarianza

Encontrar las direcciones de la varianza máxima y mínima es lo mismo que buscar dónde los cuadrados mínimos ortogonales se ajustan mejor a la línea y al plano de los datos. Las sumas de cuadrados para esa línea y plano pueden escribirse en términos de matriz de covarianza. Las conexiones entre ellas pueden calcularse para obtener los vectores Eigen de esta matriz de covarianza.

Encontrar los vectores propios de una matriz de covarianza es exactamente la técnica del análisis de componentes principales (PCA).

Los vectores propios son aquellas variables que no están correlacionadas linealmente.