¿Cuál es una explicación intuitiva del teorema de Cayley-Hamilton?

Puede ver lo que le está sucediendo a una matriz triangular superior T nxn con un único valor propio [math] \ lambda [/ math]. El polinomio característico es igual a [math] \ det (T-xI) = (\ lambda-x) ^ n [/ math]
Cayley-Hamilton dice [matemáticas] (\ lambda I – T) ^ n = 0 [/ matemáticas]
OK porque [math] (\ lambda I – T) [/ math] es una matriz nilpotente

Ahora tomemos un ejemplo de una matriz triangular superior T con en diagonal [math] \ lambda_1, …, \ lambda_1, …, \ lambda_p, …, \ lambda_p [/ math]
respectivamente [math] m_1 [/ math] veces,…, [math] m_p [/ math] veces
El polinomio característico es igual a [math] \ det (T-xI) = (\ lambda_1-x) ^ {m_1}… (\ lambda_p-x) ^ {m_p} [/ math]
Cayley-Hamilton dice [math] (\ lambda_1 I – T) ^ {m_1} \ dot… \ dot (\ lambda_p I – T) ^ {m_p} = 0 [/ math].
Deje [math] f [/ math] el endomorfismo asociado con la matriz [math] T [/ math], tenemos [math] (\ lambda_1 Id – f) ^ {m_1} \ circ… \ circ (\ lambda_p Id – f) ^ {m_p} = 0 [/ matemáticas].
Al elegir un básico adaptado para obtener subespacios estables, podemos interpretar esto: para todas [matemáticas] i [/ matemáticas], la restricción del endomorfismo [matemáticas] \ lambda_i Id -f [/ matemáticas] a algún subespacio es nilpotente.
En esa base, T se convierte en una matriz [matemática] U [/ matemática] compuesta de bloques triangulares. [math] U [/ math] verificar [math] (\ lambda_1 I – U) ^ {m_1} \ dot… \ dot (\ lambda_p I – U) ^ {m_p} = 0 [/ math]. Esta relación es verdadera porque alguna submatriz de cada matriz [matemática] \ lambda_i I – U [/ matemática] es muy nula.

Para una matriz cualquier coeficiente complejo, esta interpretación en términos de matrices nilpotentes también es posible eligiendo una buena base.

Para mí, la importancia del teorema de Cayley-Hamilton es que implica lo siguiente

Teorema: para una matriz A real o compleja y un polinomio escalar P (x) de grado posiblemente grande no especificado, el valor de P (A) depende solo de los valores de

(d / dx) ^ m P (x),

para x en el conjunto de valores propios complejos de A y para m + 1 menor o igual que la multiplicidad algebraica del valor propio. (Aquí la derivada compleja se calcula para polinomios con el mismo proceso algebraico que la diferenciación de números reales habitual. De manera equivalente, se sigue extendiendo la definición habitual de límite en la definición de derivada a límites complejos).

La importancia de esto se hace evidente cuando se intenta extender funciones no polinomiales de escalares a funciones de matrices, como se explica en esta respuesta: Respuesta anónima a ¿Qué es una explicación intuitiva del teorema espectral? Desde este punto de vista, el teorema de Cayley-Hamilton es un poco de la forma de Jordan de un hombre pobre, ya que le ayuda a aplicar funciones a las matrices. (Como se explica en esa otra respuesta, para una matriz A se puede definir útilmente f (A) para funciones escalares no polinomiales f reemplazando f con un polinomio para que

(d / dx) ^ mf (x) = (d / dx) ^ m P (x)

para x y m en el teorema anterior.)

[No creo que haya muchos problemas para reformular el teorema anterior para muchos campos además de R o C, pero casi nunca trabajo con otros campos, así que no lo consideraré más].

Respuesta larga, que termina demostrando la respuesta corta: suponga que hay un oráculo, por ejemplo, una subrutina de computadora a cuyo funcionamiento interno no tiene acceso, que calcula un polinomio P (x) o una de sus derivadas en alguna real o complejo x.

Ahora si me das una matriz A y un polinomio

Q (x) = C0 + C1 X +… + Cm X ^ m

entonces puedo aplicar fácilmente este polinomio a la matriz A usando la convención

Q (A) = C0 I + C1 A +… + Cm A ^ m

donde I es la matriz de identidad y las potencias se calculan usando la multiplicación matricial habitual.

Esto invita a lo siguiente

Pregunta: Dado solo el acceso del oráculo al polinomio P (x) y sus derivados P ‘(x), P’ ‘(x),…. a valores escalares de x, ¿es posible deducir el valor de P (A) para la matriz A?

(Cada consulta de oráculo debe especificar x y qué derivada de x desea, no puede pedir la lista infinita completa de las derivadas).

Como no sé qué tan grande es el grado de P, nunca sabré si he consultado el oráculo suficientes veces con valores de números reales de x para poder deducir los coeficientes de P.

Solución: Sea C el polinomio característico de A. Esto significa que si R (x) es el resto de P (x) dividido por C (x), de modo que

P (x) = Q (x) C (x) + R (x),

donde Q (x) y R (x) son polinomios y

grado (R)

R = P mod C.

Luego por el teorema de Cayley-Hamilton

P (A) = Q (A) C (A) + R (A) = Q (A) 0 + R (A) = R (A).

Por lo tanto, para calcular P (A) solo se necesita poder determinar el polinomio R = P mod C, dado nuestro acceso oráculo a P.

Para tener una idea de cómo proceder, consideremos primero x = lamda, donde lamda es una raíz de C, es decir, un valor propio de A. Por la definición de R tenemos

P (lamda) = Q (lamda) C (lamda) + R (lamda) = Q (lamda) 0 + R (lamda)
= R (lamda)

En particular, podemos descubrir R (lamda) simplemente consultando el oráculo para P (lamda).

¿Qué sucede si C (x) tiene una raíz doble en x = lamda? (Esto corresponde a un valor propio de multiplicidad algebraica 2.) Luego tomamos la derivada

P ‘(lamda) = Q’ (lamda) C (lamda) + Q (lamda) C ‘(lamda) + R’ (lamda)
= Q ‘(lamda) 0 + Q (lamda) 0 + R’ (lamda)
= R ‘(lamda),

para que podamos aprender R ‘(lamda) al consultar P’ (lamda).

Podemos continuar esto con valores propios de un grado aún mayor.

Mediante una contabilidad cuidadosa, y utilizando el hecho de que el grado de R es menor o igual que el grado de C, no es difícil ver que podemos determinar R completamente al consultar P y sus derivados en los valores propios de P de orden menor o igual que la multiplicidad de cada raíz de C, menos 1.

Entonces, la respuesta larga es una prueba del teorema anterior.