¿Cuál es la intuición detrás del pseudo inverso de una matriz?

La función pinv () (http://www.mathworks.co.uk/help/…) calcula el pseudoinverso de Moore-Penrose.

Piense en ello como una generalización de lo inverso. Se define para todas las matrices, pero tiene menos propiedades garantizadas como resultado. Por ejemplo, será una matriz tal que [matemática] AA ^ + A = A [/ matemática], pero no necesariamente la propiedad inversa usual más fuerte [matemática] A ^ {- 1} A = AA ^ {- 1} = I [/ math] (el segundo implica el primero). En el caso especial donde una matriz tiene un inverso, será lo mismo que el pseudoinverso. Entonces pinv () te da el inverso donde existe, y aún da algo inverso como en cualquier otro lugar.

El pseudo-inverso es la respuesta “más cercana” a [matemáticas] AX = I [/ matemáticas], en el sentido de que la norma [matemáticas] | AX-I | _2 [/ matemáticas] es la más pequeña. Es 0 cuando existe lo inverso, por supuesto.

Para mí, la propiedad importante del pseudo-inverso surge al resolver un sistema lineal simple de ecuaciones [matemáticas] Ax = b [/ matemáticas]. Tiene 0, 1 o infinitas soluciones. [matemáticas] x = A ^ + b [/ matemáticas] es la solución más cercana cuando no existe ninguna en el sentido anterior. Da la respuesta única cuando existe 1. Y cuando existen muchos, es la solución más pequeña en el sentido de que [math] | x | _2 [/ math] es la más pequeña.

He tenido dos cursos en álgebra lineal (segundo semestre), teoría de matrices (tercer semestre) y reconocimiento de patrones (sexto semestre).

Pseudo-inverso es un concepto muy común en cualquier tema que involucra cualquier perspicacia matemática.

Primero veamos el inverso de una matriz y luego, intuitivamente, ingresemos en el pseudoinverso.

El inverso de una matriz A viene dado por,

[matemáticas] A ^ {- 1} [/ matemáticas] [matemáticas] = \ frac {1} {| A |} .adj (A) [/ matemáticas]

Podemos ver que el término [matemáticas] A ^ {- 1} [/ matemáticas] depende del valor [matemáticas] | A | [/ matemáticas].

Por lo tanto, [matemáticas] | A | \ neq 0 [/ math] porque, si [math] | A | = 0 [/ matemática], luego [matemática] \ frac {1} {| A |} = \ infty. [/ Matemática]

En otras palabras, A debe ser no singular.

Otro factor a considerar es, A debe ser cuadrado, porque, | A | existe solo para matrices cuadradas.

Este es el caso ideal, ahora tomemos el caso donde | A | No es cuadrado ni singular.

En ese caso, utilizamos el pseudoinverso de Moore-Penrose.

Wikipedia dice:
En matemáticas, y en particular en álgebra lineal, un pseudoinverso A + de una matriz A es una generalización de la matriz inversa. [1]. El tipo de pseudoinverso matricial más conocido es el pseudoinverso de Moore-Penrose , que fue descrito independientemente por EH Moore [2] en 1920, Arne Bjerhammar [3] en 1951 y Roger Penrose [4] en 1955. Anteriormente, Fredholm había introducido el concepto de pseudoinverso de operadores integrales en 1903. Cuando se hace referencia a una matriz, el término pseudoinverso, sin más especificación, se usa a menudo para indicar el pseudoinverso de Moore-Penrose. El término inverso generalizado a veces se usa como sinónimo de pseudoinverso. Un uso común de la pseudoinversa es calcular una solución de ‘mejor ajuste’ (mínimos cuadrados) para un sistema de ecuaciones lineales que carece de una solución única (ver más abajo en § Aplicaciones). Otro uso es encontrar la solución de norma mínima (euclidiana) para un sistema de ecuaciones lineales con múltiples soluciones. El pseudoinverso facilita el enunciado y la prueba de resultados en álgebra lineal. El pseudoinverso está definido y es único para todas las matrices cuyas entradas son números reales o complejos. Se puede calcular utilizando la descomposición de valores singulares.

Ahora, desde SVD, podemos ver claramente que (sin incluir la derivación), el Pseudoinverso se ve así:

[matemáticas] A ^ {+} = (A ^ {T} A) ^ {- 1} A ^ {T} [/ matemáticas]

Ahora, el problema de que A no sea cuadrado se resuelve con el término [matemáticas] A ^ {T} A [/ matemáticas], ya que si A es de orden [matemáticas] n \ veces m [/ matemáticas], entonces [matemáticas ] A ^ {T} A [/ math] es de orden [math] m \ times m. [/ Math]

El problema de que sea singular también se resuelve, ya que [math] A [/ math] ya no está comenzando en el denominador, por lo que no hay problema si [math] A ^ {+} [/ math] es [math] \ infty [/ math]

Y, recordemos también las reglas básicas de Matrices como:

  1. [matemáticas] (AB) ^ {- 1} = B ^ {- 1}. A ^ {- 1} [/ matemáticas]
  2. [matemáticas] A ^ {- 1}. A = I [/ matemáticas]
  3. [matemáticas] AI = A [/ matemáticas]

Ahora, supongamos que [math] A [/ math] es cuadrado y no singular. Entonces,

[matemáticas] A ^ {+} = (A ^ {T} A) ^ {- 1} A ^ {T} [/ matemáticas]

[matemáticas] \ implica [/ matemáticas] [matemáticas] A ^ {+} = A ^ {- 1} (A ^ {T}) ^ {- 1} A ^ {T} (de 1) [/ matemáticas]

[matemáticas] \ implica A ^ {+} = A ^ {- 1} .I (de 2) [/ matemáticas]

[matemáticas] \ implica A ^ {+} = A ^ {- 1} (de 3) [/ matemáticas]

Por lo tanto, probado.

Espero que sea lo suficientemente intuitivo.

¡Salud!

Gracias Quora User por señalar el error que cometí. 🙂

No podemos tener [matemáticas] AA ^ {+} = I [/ matemáticas] ya que tengo rango completo y A no.

Sin embargo, tenemos la siguiente mejor opción: [matemática] AA ^ {+} [/ matemática] es el operador de identidad en la imagen de A. Más precisamente [matemática] AA {+} [/ matemática] es la proyección ortogonal en el imagen de A, que denotamos [matemáticas] I_ {im A} [/ matemáticas].
En otras palabras, por cada v en la imagen de A, tenemos [matemáticas] AA ^ {+} v = v [/ matemáticas] y por cada v en el núcleo de A tenemos [matemáticas] AA ^ {+} v = 0 [/ matemáticas].

¿Qué es [matemáticas] A ^ {+} [/ matemáticas] o pseudo inverso o imagen [En caso de que se pregunte]
A veces nos gustaría invertir una matriz que no es completamente invertible. Una alternativa útil es invertir la parte de la matriz que es invertible (su imagen ) y dejar sola la parte de la matriz que no es invertible (su núcleo ), aplicando una función de valor real
[matemáticas]
f (x) =
\ begin {cases}
\ frac {1} {x}: (x \ neq 0)
\\\\
0: (x = 0)
\ end {casos}
[/matemáticas]
a una matriz simétrica, la matriz resultante [matemática] A ^ {+} [/ matemática] se llama pseudo inversa. para una matriz invertible [matemática] A ^ {+} = A ^ {- 1} [/ matemática].

PS: la inversa de una matriz simétrica no singular se obtiene invirtiendo sus valores propios.

Me gusta pensarlo de manera más abstracta. Para la ecuación del operador [math] T (u) = v [/ math], [math] T: \ mathbb U \ to \ mathbb V [/ math], donde [math] T [/ math] no es invertible, nosotros desea encontrar una [matemática] u [/ matemática] que “se acerque más” a ser una solución a la ecuación. Si tenemos un producto interno en [matemática] U [/ matemática] y [matemática] V [/ matemática], podemos hacer que esa noción sea precisa definiendo la “solución más cercana a [matemática] v [/ matemática] en [matemática] V [/ math] “es la proyección ortogonal de [math] v [/ math] sobre [math] Im (T) [/ math]. Ahora, por el teorema de nulidad de rango, sabemos que el complemento ortogonal de [math] Ker (T) [/ math] debe tener la misma dimensión que [math] Im (T) [/ math]. Esto significa que [math] T [/ math] restringido a [math] Ker (T) ^ \ bot [/ math] es invertible, por lo que podemos definir un nuevo mapa [math] T ‘: \ mathbb {Im} (T ) \ to \ mathbb U [/ math], donde [math] Im (T ‘) = Ker (T) ^ \ bot [/ math]. Ahora podemos encontrar una preimagen única en [matemática] U [/ matemática] para cualquier [matemática] v [/ matemática] en [matemática] V [/ matemática] proyectando [matemática] v [/ matemática] en [matemática] Im (T) [/ math] y asignarlo de nuevo a [math] U [/ math] con [math] T ‘[/ math]. Llamamos a la composición de la proyección en [math] Im (V) [/ math] y el mapeo a [math] U [/ math] el “pseudoinverso”. Entonces, para encontrar la “solución más cercana” a la ecuación matricial [matemática] Ax = b [/ matemática], donde [matemática] A [/ matemática] puede ser singular, el pseudoinverso proyecta [matemática] b [/ matemática] en [matemática ] Im (A) [/ math] para encontrar la “solución más cercana de la ecuación” a [math] b [/ math], y luego aplica [math] T ‘[/ math] al resultado para encontrar el vector [math ] x [/ math] que [math] A [/ math] se asigna a esa “solución más cercana”. Tenga en cuenta que si [matemática] T [/ matemática] es invertible, entonces [matemática] Im (T) = V [/ matemática], entonces [matemática] T ‘= T ^ {- 1} [/ matemática].

Una matriz singular no tiene una inversa. Pero si pudiera “eliminar” el espacio nulo, el operador restringido a lo que queda * es * invertable. Entonces, eso es lo que hace el inverso generalizado: se proyecta al espacio donde se define el inverso y luego calcula un inverso allí.

PS ignora esos valores singulares. Esa es solo una forma de calcular el pseudo-inverso. Lo que cuenta es la idea detrás de esto.

Supongamos que tiene un vector v y un montón de otros vectores. Y suponga que desea una suma ponderada de estos otros vectores que esté lo más cerca posible de v. Si apila esos otros vectores en una matriz A, pinv lo ayudará a calcular cuáles deberían ser esos pesos, sin importar cuántos de ellos haya son.

marca