¿Qué es una explicación intuitiva del teorema espectral?

Las respuestas existentes solo explican lo que dice el teorema espectral en lugar de por qué es cierto, por lo que aunque no tengo el poder de fuego matemático para hacer nada remotamente riguroso, lo intentaré.

La versión más simple del teorema espectral dice que si [matemática] A = A ^ T [/ matemática] entonces [matemática] A [/ matemática] tiene una base ortonormal de vectores propios. La parte misteriosa es lo que en el mundo [matemáticas] A = A ^ T [/ matemáticas] significa geométricamente, y por qué debería tener algo que ver con eigenstuff.

En pocas palabras, la condición de simetría significa “si no te afecto, entonces no me afecta”. Ahora lo convertiremos en una cruda prueba.


Tenga fe en que existe al menos un vector propio [matemáticas] v [/ matemáticas]. Trabaje en una base ortonormal donde ese vector propio es el primer vector base. Entonces la matriz se ve como [matemáticas] A = \ begin {pmatrix} \ lambda &? & \ ldots &? \\ 0 &? & \ ldots &? \\ \ vdots & \ vdots & \ vdots & \ vdots \\ 0 &? & \ ldots &? \ end {pmatrix} [/ math]

La condición de simetría significa que el resto de la primera fila también son todos ceros, por lo que en realidad tenemos

[matemáticas] A = \ begin {pmatrix} \ lambda & 0 & \ ldots & 0 \\ 0 &? & \ ldots &? \\ \ vdots & \ vdots & \ vdots & \ vdots \\ 0 &? & \ ldots &? \ end {pmatrix} [/ math]

Entonces, el complemento ortogonal de [math] v [/ math] es totalmente independiente de lo que estamos haciendo a [math] v [/ math]. Ahora podemos restringirlo, y terminamos por inducción.

El paso clave en la prueba es este: si [matemática] A [/ matemática] no toma [matemática] v [/ matemática] fuera de su propio subespacio, entonces por simetría, [matemática] A [/ matemática] no puede lleve cualquier cosa fuera de [math] v [/ math] al subespacio de [math] v [/ math]. Esto nos permite separar direcciones independientes hasta que obtengamos una base propia completa.

El grupo de teoremas espectrales le da criterios para cuando puede “diagonalizar” un operador lineal.

Primero tienes que preguntarte qué puede hacer un operador lineal. Al menos para dimensiones finitas, es fácil de visualizar: solo puede hacer una combinación de rotaciones, estiramientos y espejos. La idea es entonces que puede expresar el operador como una suma de operadores más simples, que no hacen más que estirar.

Los vectores propios son vectores que, bajo la aplicación del operador, son como máximo estirados pero no rotados, por lo que [math] A v = \ lambda v [/ math], con el Eigenvalue el factor de estiramiento.

Ahora el teorema le dice que, bajo ciertos requisitos previos, puede encontrar una base completa para este espacio vectorial compuesto únicamente por vectores propios.
[matemática] V = V_1 +… + V_n [/ matemática] donde [matemática] V_1 = \ {v \ en V: Av = \ lambda v \} [/ matemática]

Hablando de manera muy aproximada, encuentra un sistema de coordenadas que al rotar el problema hace que el operador parezca extremadamente simple porque puede expresarse como una suma de operadores de multiplicación que simplemente actúan en el subespacio del vector propio correspondiente.
[matemáticas] A = \ lambda_1 P_1 +… + \ lambda_n P_n [/ matemáticas]

Estos operadores son los más simples que puede encontrar (básicamente, la identidad en el subespacio, pero a veces un escalar). Esto hace que muchos cálculos difíciles sean fáciles e imposibles.

Para dimensiones infinitas y operadores muy generales, esto se vuelve cada vez más difícil de formular y probar, pero la idea general es siempre la misma que en el caso de dimensiones finitas y la recompensa es excelente.

Por ejemplo, me encanta la forma en que puedes tomar la exponencial de un operador (conduce a la teoría de la mentira y es muy necesaria para una teoría cuántica superior y otras ramas de la física)

Quizás sea útil considerar primero la siguiente pregunta engañosamente elemental:

Pregunta: ¿Qué es una propiedad cualitativa, no algebraica, de matrices diagonalizables que las distingue de las matrices no diagonalizables? (Olvídate de si la diagonalización es realizada por un unitario por ahora).

Una respuesta a esta pregunta tonta comienza observando que las matrices diagonales tienen lo siguiente

Propiedad polinómica de matrices diagonalizables: si A es una matriz diagonalizable y P es un polinomio real, entonces P (A) depende solo de los valores P (lamda) de P en los valores propios lamda de A.

Aquí usamos

Definición de aplicar un polinomio a una matriz: si P (x) es un polinomio

P (X) = C0 + C1 X + C2 X ^ 2 +… Cn X ^ n

y A es una matriz, entonces definimos

P (A) = C0 I + C1 A + C2 A ^ 2 +…

donde I es la matriz de identidad y donde se forman los exponentes usando la multiplicación de matrices.

Puede probar esta propiedad polinómica de las matrices diagonalizables anteriores diagonalizando A y observando lo que sucede cuando toma un polinomio de una matriz diagonal.

Para una matriz diagonalizable, se puede extender la noción de aplicar funciones a matrices desde polinomios a funciones arbitrarias usando lo siguiente

Definición (cálculo funcional para matrices diagonalizables, forma no elegante): Sea A una matriz diagonalizable, y sea f una función de valor real o complejo de los valores propios de A. Entonces f (A) es la matriz

f (A) = M f (D) M ^ -1,

dónde

A = MDM ^ -1

es una diagonalización de A, con D diagonal y M invertible, y donde se forma f (D) reemplazando cada entrada diagonal lamda de D por f (lamda).

Ejemplo: Sea f (x) = x ^ (1/3) la función de raíz cúbica, y sea A una matriz diagonalizable. Entonces C = f (A) es de hecho una raíz cúbica de A: C ^ 3 = A.

Ejemplo: si A es no singular y diagonalizable yf (x) = 1 / x, entonces f (A) es la matriz inversa de A.

Ejemplo: si A es diagonalizable yf (x) = exp (x), entonces f (A) es la matriz exponencial de A, dada por la serie habitual de Taylor:

exp (A) = I + A + A ^ 2/2 + A ^ 3/3! +… ..

Para ver que esta definición de f (A) está bien definida (es decir, independiente de la diagonalización) y para ver cómo proceder en el caso no diagonalizable, es útil redefinir f (A) para la diagonal A en el siguiente forma:

Definición alternativa (cálculo funcional para matrices diagonalizables, mejor forma): Sea A una matriz diagonal, y sea f una función de valor real o complejo de los valores propios de A. Entonces f (A) = P (A), donde P es un polinomio elegido para que f (lamda) = P (lamda) para cada valor propio lamda de A.

En particular, no es necesario diagonalizar una matriz para calcular una función f (A) de la matriz: la interpolación de f en los valores propios de A da un polinomio suficiente para calcular f (A).

¿Qué sucede si A no es diagonalizable? Bueno, si estamos trabajando sobre los números complejos, entonces la forma normal de Jordan dice que al elegir una base adecuada, dicha matriz se puede escribir como una matriz de bloques en diagonal, una suma directa de Jordan Blocks Jn como

J2 = a 1
0 a.

J3 = a 1 0
0 a 1
0 0 a,

donde Jn es una matriz ansn con algún número complejo a en la diagonal y una cadena de 1 encima de la diagonal. Tenga en cuenta que en cada caso Mn tiene el valor propio único a de multiplicidad n.

Ninguno de estos bloques de Jordan es diagonalizable, ya que el siguiente teorema dice que los bloques de Jordan no comparten la propiedad polinómica de las matrices diagonales :

Teorema: (La acción de los polinomios en los bloques de Jordan) Sea P un polinomio, y sea Jn un bloque de Jordan nxn, de la forma anterior. Entonces P (J) depende solo de P (a) y de sus primeras n derivadas en a. ES DECIR

P (J2) = P (a) P ‘(a)
0 P (a)

P (J3) = P (a) P ‘(a) P’ ‘(a) / 2
0 P (a) P ‘(a)
0 0 P (a)

P (J4) = P (a) P ‘(a) P’ ‘(a) / 2! P ” (a) / 3!
0 P (a) P ‘(a) P’ ‘(a) / 2!
0 0 P (a) P ‘(a)
0 0 0 P (a)

y así.

Se puede verificar el Teorema anterior al verificarlo para ver si hay monomios y luego extenderlo a polinomios, que son solo combinaciones lineales de monomios.

Para ver cómo se relaciona esto con las funciones informáticas de las matrices, considere el siguiente problema, que aplica la función de raíz cúbica a las matrices:

Problema (raíces cúbicas de matrices): Sea A una matriz real o compleja no singular mxm. Encuentre una raíz cúbica C = A ^ (1/3) de A, que es una matriz C tal que A = C ^ 3.

Damos dos soluciones: la primera implica calcular explícitamente la forma de Jordan de la matriz A, y la segunda utiliza solo la existencia de la forma de Jordan, sin el cálculo explícito.

Solución 1: mediante la forma de Jordan, podemos descomponer la matriz A en bloques de Jordan Jn mediante una elección de base, por lo que restringimos la consideración al caso de que A = Jn para algún n. Por ejemplo, para algún número complejo a,

J3 = a 1 0
0 a 1
0 0 a,

Ahora no es difícil demostrar que hay un polinomio

P (X) = C0 + C1 X + C2 X ^ 2

tal que en el valor propio a de J3 uno tiene

P (a) = a ^ (1/3)
P ‘(a) = 1/3 (a ^ (1/3)) ^ (-2)
P ” (a) = -2/9 (a ^ (1/3)) ^ (-5)

(Como asumimos que ningún valor propio es 0, nada es infinito).

(IE P es la función x -> x ^ 1/3 hasta la segunda derivada en el punto x = a. Hay cierta ambigüedad en la definición de a ^ 1/3 en el caso complejo, así que he escrito un ^ (-2/3) = (a ^ (1/3)) ^ (- 2) para encargarse de esto, lo que significa que se usa la misma raíz cúbica en las tres fórmulas.) De hecho

P (X) = (5 a ^ (1/3) + 5 a ^ (- 2/3) x – a ^ (- 5/3) x ^ 2) / 9,

aunque en realidad no necesitábamos calcular P, ya que a partir de la fórmula general para P (J3) en el Teorema anterior,

P (J3) = a ^ 1/3 1/3 a ^ (- 2/3) -2/9 a ^ (- 5/3)
0 a ^ (1/3) 1/3 a ^ (- 2/3)
0 0 a ^ (1/3)

¡Esta es solo nuestra raíz cúbica deseada de J3!

C = P (J3).

Para ver esta nota que

C ^ 3 = (P (J3)) ^ 3 = (P ^ 3) (J3) = R (J3),

donde R (x) es el polinomio que satisface

R (x) = (P (x)) ^ 3.

La propiedad importante de R es que el punto x = a, el polinomio R = P ^ 3 coincide con la función de identidad x -> x hasta derivadas de orden 2

R (a) = a
R ‘(a) = 1
R ” (a) = 0,

de modo que por la fórmula general para un polinomio aplicado a un bloque de Jordan,

C ^ 3 = R (J3) = R (a) R ‘(a) R’ ‘(a) / 2 = a 1 0 = J3,
0 R (a) R ‘(a) = 0 a 1
0 0 R (a) = 0 0 a

como se desee.

Solución 2: si A es una matriz mxm, entonces encuentre un polinomio P (x) para que en cada valor propio x = a de A el polinomio y sus derivadas de orden hasta m-1 coincidan con la función deseada x -> x ^ 1 / 3. Entonces C = P (A) es la raíz cúbica deseada de A.

Tenga en cuenta que la solución 2 funciona porque todos los bloques Jordan de A serán de un tamaño menor que n, y por la solución 1 el polinomio P reemplazará cada bloque jordan por su raíz cúbica. Como no nos molestamos en calcular explícitamente la forma de Jordan de A, el polinomio P que empleamos puede ser innecesariamente de alto grado, porque no sabíamos las longitudes de las cadenas de Jordan. Sin embargo, la interpolación polinómica probablemente no fue tanto trabajo como calcular la forma de Jordan. (Además, de esta manera evitamos cualquier inestabilidad numérica asociada con la forma de Jordan y los valores propios degenerados).

El ejemplo de la raíz cúbica invita a la siguiente definición:

Definición (variante del cálculo de Dunford en el caso de dimensión finita) : Sea A una matriz autoadjunta. Sea f una función real o compleja cuyo dominio contiene los valores propios de A. Luego

f (A) = P (A),

donde P (x) es un polinomio tal que para cada valor propio x = a

P (a) = f (a)
P ‘(a) = f’ (a)
P ” (a) = f ” (a)
…………

donde el número de derivados coincidentes es al menos del tamaño de la cadena más grande de 1 en el bloque de Jordan correspondiente al valor propio a.

Se puede verificar que el resultado de aplicar la función x-> 1 / x a una matriz A es, de hecho, la matriz inversa usual de A. También se puede verificar que el resultado de aplicar la función exponencial o la función seno a una matriz A es lo mismo que aplicar la serie de Taylor correspondiente para exp o sin a la matriz A.

La noción de aplicar una función a una matriz se llama “cálculo funcional”, por lo que el cálculo de Dunford se llama “cálculo”.

Es estándar en la definición del cálculo de Dunford exigir que f tenga derivadas complejas, y generalmente se define esto usando la fórmula integral de Cauchy en el caso de dimensión infinita. He cortado todo esto para explicar el simple caso de dimensión finita, y he eludido explicar qué es una derivada de una función de los números complejos a los números complejos. (Afortunadamente, la función x-> x ^ (1/3) es infinitamente diferenciable en los reales distintos de cero.) Puede haber algunas sutilezas aquí, pero estoy tratando de dar una visión general rápida de los conceptos.

Por lo tanto, es evidente que, en cierto sentido, la forma de Jordan es esencialmente el cálculo de Dunford y el teorema espectral es el cálculo funcional para operadores autoadjuntos. (Este último es el punto de vista tomado por Reed y Simon en “Métodos de Física Matemática I: Análisis funcional. Esta discusión es solo de dimensión finita, pero Reed y Simon consideran el caso de dimensión infinita).

De todos modos, el resultado de todo esto es que la diagonalización está relacionada con las nociones de tomar funciones de matrices. Esto se llama cálculo funcional, y hay varios cálculos funcionales.

Ahora, la autoajustación es un poco más profunda, porque implica diagonalización unitaria, no solo diagonalización. Los espacios propios se vuelven ortogonales. No he pensado en una buena manera de explicar lo que es intuitivamente crucial sobre esto. Sin embargo, en la mecánica cuántica los espacios propios ortogonales son perfectamente distinguibles, y la autoajustación se convierte en una condición natural. El espectro del átomo de hidrógeno es solo la diferencia de los valores propios de su operador hamiltoniano.

Llegar a una explicación intuitiva de por qué la mecánica cuántica involucra tales matemáticas está más allá de mí.

Hablando honestamente, esta es una de esas (muy pocas) propiedades matemáticas que debes comenzar tomando como un artículo de fe … y luego, a medida que crezca tu repertorio matemático y experimental, comenzarás a ver por qué esta es una propiedad tan profunda . Aparece en tantos lugares y formas (álgebra lineal, teoría pde, teoría de grupos, teoría de Lie, teoría de grafos) que se convierte en una de las propiedades más fundamentales y unificadoras en matemáticas: la invariancia de los operadores .

Pero, “intuitivamente”, la razón por la cual esta propiedad es tan importante proviene de ver por qué el sistema propio de un operador lineal (una palabra elegante para matriz) es tan crucial.

Considere el caso más simple de una matriz [‘matemática] n \ veces n [/ matemática]’ rango completo ‘[matemática] A [/ matemática], un par de vector propio de valor propio es un escalar [matemático] \ lambda_i [/ math] y un vector [math] v_i [/ ​​math] tal que [math] Av_i = \ lambda_i v_i [/ ​​math].

Ahora, resulta que, mediante un argumento que involucra el teorema fundamental del álgebra lineal y el cálculo con respecto a las raíces de los determinantes, que para una matriz de rango ‘n’ existen pares de eigen ‘n’. (En general, estos pares no necesitan ser únicos, pero esa es una complicación que podemos evitar por ahora).

Entonces, ahora estamos trabajando en un espacio dimensional ‘n’ y nuestra matriz A nos ha dado ‘n’ vectores propios distintos [matemática] v_1 \ ldots v_n [/ matemática]. Así que ahora podemos expresar este ‘sistema propio’ en notación matricial como [math] AV = V \ Lambda [/ math], donde [math] V [/ math] es una matriz obtenida al apilar todos los vectores eigen y [math ] \ Lambda [/ math] es una matriz diagonal obtenida al poner todos los valores propios correspondientes en la diagonal.

Esto no es más que el teorema espectral – reformulado.

Además, mediante álgebra lineal básica, cualquier ‘n’ vector dimensional ‘x’ puede expresarse como [math] \ sum_i \ alpha_i v_i [/ ​​math], es decir, como una combinación lineal de los vectores propios (donde [math] \ alpha_i [ / math] son ​​coeficientes escalares). Ahora, a través de linealidad simple [matemática] Ax = A \ sum_i \ alpha_i v_i = \ sum_i \ alpha_i A v_i = \ sum_i \ alpha_i \ lambda_i v_i [/ ​​math]. Voila, por el simple dispositivo de pensar en términos del espacio propio de ‘A’, nos hemos librado de la matriz (también conocido como el operador lineal) ‘A’ y ahora estamos trabajando exclusivamente en términos de sumas escalares.

Esta es una gran ventaja cuando se trata de trabajar a través de sistemas complejos …

De todos modos, como dije antes, esto es solo un vistazo al poder y la percepción que el análisis propio proporciona sobre el comportamiento de un sistema matemático.

La palabra alemana “eigen” significa “propio” (wordhippo tiene una interfaz horrible, pero una búsqueda en google mostró la siguiente lista de wordhippo – palabras en inglés para la palabra alemana eigen . Individual, inherente, propia, particular, peculiar, posesiva, adecuada) , separado, extraño). Entonces, hay un vector propio por columna de una matriz N x N simétrica, y cada vector propio tiene un valor propio asociado, para un total de N valores propios.