Álgebra lineal: ¿Cuál es la intuición detrás de los ejes principales de una matriz?

Intuitivamente? En el contexto de PCA, piense que una matriz M x N representa M puntos en el espacio N-dimensional (uno por fila). Por ejemplo, el diagrama de dispersión en la entrada de Wikipedia para el análisis de componentes principales muestra muchos puntos (M grande) en el espacio 2D (N = 2):

Las coordenadas (x, y) de estos puntos expresan los puntos como combinaciones lineales de los vectores base (1,0) y (0,1): x * (1,0) + y * (0,1 ) Pero podría representar los puntos como una combinación lineal de dos vectores 2D (linealmente independientes).

Es mejor si los vectores base que elegimos son ortogonales (ángulo de 90 grados).

Y, en la imagen de arriba, creo que puedes ver claramente que la distribución de los datos tiene este eje largo natural. Esa parece ser una buena opción para uno de los vectores de base, ya que la mayor parte de la variación está en este eje y de alguna manera es la dimensión que ‘explica’ más sobre los datos, por sí misma, que cualquier otro eje.

Ese es el primer componente principal. Elimina la varianza completamente explicada por este eje y repite para encontrar el siguiente vector base más importante que es ortogonal al primero. Y así.

Por lo tanto, los componentes principales son nuevos vectores base. PCA le permite descubrir la transformación del espacio original al nuevo espacio también. La transformación es ortogonal, por eso conserva la distancia / ángulo, por lo que puede pensar en ella como una rotación. Si eso es lo que quiere decir con ‘simetría’, entonces esa es la razón por la cual PCA le da ‘simetría’.

Una línea con alta varianza (componente principal o eje) explica mejor los datos, ya que permite que los puntos de datos sean más distinguibles.
“Puede tratar los datos no correlacionados como ortogonales”

Cuando u está normalizado, [matemática] u ^ T x [/ matemática] es componente de u a lo largo de x.
(también conocido como problema de maximización de varianza)

PCA está proyectando datos en un hiperplano ortogonal a la dirección en la cual la varianza es máxima.

PD: una matriz y un vector también pueden representar una capa en la red neuronal.
PPS: Existen ventajas adicionales para la codificación vectorial de palabras / temas. [Ej.
los momentos cruzados de las palabras observadas producen directamente la estructura tensora simétrica deseada, en modelos de un solo tema], pero eso no está dentro del alcance de esta respuesta.