Álgebra lineal: ¿Cómo interpreto la descomposición de valores singulares (SVD) para la visualización?

Heres un gran ejemplo con el uso de los dos primeros términos de PCA en los 2 y 3 dígitos de MNIST.

Arriba hay un ejemplo del dígito 2 y el dígito 3.

Luego, cambiaremos la forma de todos nuestros datos para que cada uno sea un vector [math] 1 \ times 64 [/ math].
y produce una matriz que es [matemática] n \ veces 64 [/ matemática], donde [matemática] n [/ matemática] es el número de ejemplos de 2s y 3s en nuestros datos.

Ahora tomamos los dos primeros coeficientes de nuestros datos truncados. y trazarlos para su visualización. Aquí ROJO = 2, AZUL = 3:


Entonces parece que el eje x de alguna manera descubrió cómo separar 2s y 3s …

¡Echemos un vistazo a cómo se ven los componentes!

Primer componente

Tenga en cuenta que parece un 2 y un 3, acepte que falta la parte inferior.

Interpretación : cuando escribimos un 2 o un 3, la curva superior se ve igual, como con la línea inferior. sin embargo, los 2 giran hacia la izquierda antes de hacer la línea inferior, mientras que los 2 se curvan hacia la derecha. El primer componente explica las similitudes entre 2 y 3.

Segundo componente

Observe que este es un poco diferente, hay un lado izquierdo oscuro (5,3) y un lado blanco claro (5,5). Este componente explica nuestra intuición! si el segundo componente es positivo, se convierte en un dos ya que oscurecemos el lado izquierdo del 2, mientras que si el segundo componente es negativo, solidifica el lado derecho (niega la imagen)

Diagrama de dispersión con dígitos

Parece que no solo un componente separa 2 vs 3, ¡parece que el otro mira la asimetría!

Ahí vas. Una interpretación

EDITAR: He agregado el ipynb si desea ejecutar esto usted mismo para otros dígitos. Quora_PCA_2D.ipynb necesitarás sklearn, pandas y matplotlib.

Esta conferencia del curso de Análisis de datos de Jeff Leek en Coursera describe
El proceso de SVD y la visualización de las matrices U y V y X (aquí d).
La principal diferencia con esta pregunta es que las variables explicativas (en U y V) son densas, en lugar de términos dispersos o vectores de documentos.
Aún así, obtendrá algo de intuición de esto:

El enfoque clásico es tomar las dos dimensiones superiores de U o V (dependiendo de si desea visualizar los documentos o los términos), y usarlos como coordenadas para un diagrama de dispersión. Esto se debe a que las dimensiones sucesivas en una descomposición de SVD capturan la dimensión lineal que explica la mayor variación en los datos y siguen siendo ortogonales a todas las dimensiones anteriores, y los 2 principales generalmente capturarán una cantidad sustancial de todas las variaciones.

Si hace esto, encontrará que los documentos generalmente están más cerca de documentos similares y los términos están generalmente más cerca de términos similares, pero ciertamente encontrará valores atípicos y otras cosas desordenadas.

Hola Jacob, digamos, por ejemplo, he descompuesto una matriz X en U, V y W donde U y V son ortogonales con los siguientes valores:

X =
1.000 1.000 1.000 0.000 0.000
2.000 2.000 2.000 0.000 0.000
1.000 1.000 1.000 0.000 0.000
5.000 5.000 5.000 0.000 0.000
0.000 0.000 0.000 2.000 2.000
0.000 0.000 0.000 3.000 3.000
0.000 0.000 0.000 1.000 1.000

U =
0.180 0.000
0.359 0.000
0.180 0.000
0.898 0.000
0.000 0.535
0.000 0.802
0.000 0.267

V ‘=
0,577 0,577 0,577 0,000 0,000
0.000 0.000 0.000 0.707 0.707

W =
Tipo = denso, numRows = 2, numCols = 2
9.644 0.000
0.000 5.292

¿El siguiente gráfico representa correctamente los valores de V ‘que ha explicado? Diga doc1 y su correspondiente se representa en Azul y doc2 y sus términos correspondientes en rojo. ¿Es esto correcto?

Primero, debemos expandir cada término, la visualización de diferentes términos puede variar mucho. Desde un simple símbolo, imágenes y animaciones, hasta conceptos abstractos muy complejos no representados, desde la representación visual de la falta de sentido de estos términos.