¿El pseudo-inverso minimiza el problema de mínimos cuadrados?

Respuesta directa a la pregunta: el pseudoinverso inverso ( izquierdo) es exactamente la fórmula para las [matemáticas] \ beta [/ matemáticas] s en la estimación de mínimos cuadrados – [matemáticas] (X ^ * X) ^ {- 1} X ^ * [/ math], donde el asterisco denota la transposición (conjugada), en el caso de que el problema esté bien definido. (Esa es la respuesta del usuario de Quora a esta pregunta, por cierto, aunque a veces es difícil estar seguro).

Para los casos en que no lo es, sigue leyendo.

La matemática detrás del problema de los mínimos cuadrados es realmente divertida.

Puede formularlo simplemente como un problema de proyección: resuelve la norma mínima [matemática] L_2 [/ matemática] de [matemática] y [/ matemática] y [matemática] \ hat {y} = \ sum a_i x_i [/ ​​matemática ], y listo! Tiene exactamente la misma ecuación para las a como lo haría si la motivara desde la vista estadística estándar (siempre que el problema no sea singular. Llegaremos al otro caso en breve). Lo que dice mucho sobre la distribución gaussiana, si piensas en las cosas con cuidado.

La respuesta de Nicolae Marasoiu establece la definición de pseudo-inverso exactamente desde la perspectiva matemática.

Desde la perspectiva del practicante:

El pseudo-inverso es útil en el cálculo de la estimación de mínimos cuadrados cuando el problema es singular (por ejemplo, cuando tiene el caso de combinaciones lineales de filas que están presentes dentro de la matriz de datos, por ejemplo), generalmente usamos la descomposición del valor singular para hacerlo de esta forma. Sin embargo, nuestras estimaciones siguen siendo algo malas, por lo tanto, todavía tenemos que detectar esto. Sin embargo, el hecho de que podamos calcularlos es de gran ayuda.

Las otras veces que esto es útil es el caso cuando el número de variables (p, por ejemplo) es mayor que el número de observaciones (n – esto a menudo se llama el problema [matemática] p >> n [/ matemática], y se usa para ser un gran problema en bioinformática: creo que es un problema menor en muchos casos hoy en día, si no en todos. Pero realmente no trabajo allí, así que no lo sé con certeza). Si bien puede obtener un estimador utilizando el pseudoinverso, bueno, el problema es … bueno, es una de un número infinito de soluciones con exactamente el mismo mínimo.

No, el pseudo inverso es solo … el pseudo inverso (como su nombre lo indica) de la matriz. Por ejemplo, suponga que tiene la igualdad:

[matemáticas] A \ mathbf {x} = \ mathbf {b} [/ math]

donde x es un vector de elementos n, b es un vector de elementos m y A es una matriz mxn.

Si A fuera invertible (que no es el caso ya que ya no es cuadrado), habría escrito:

[math] \ mathbf {x} = A ^ {- 1} \ mathbf {b} [/ math] para encontrar la solución x.

En el caso pseudoinverso usted reemplaza [math] A ^ {- 1} [/ math] por un [math] pinv (A) [/ math]

Ok, esto es solo un recordatorio rápido del pseudoinverso, pero en sí mismo se puede ver que no hay nada menos cuadrado relacionado a priori.

Ahora suponga que tiene algo más complicado, tiene N de tal igualdad en su problema, es decir:

[math] A \ mathbf {x} _i = \ mathbf {b} _i [/ ​​math], para [math] i \ in [1, N]. [/ math]

Esto es equivalente a: [mathb] A \ mathbf {x} _i – \ mathbf {b} _i = \ mathbf {0} _m [/ math],

por lo tanto, está buscando una A que satisfaga las N igualdades. Si tal A existe, es cierto que la norma al cuadrado del lado izquierdo es cero. Esto sigue siendo cierto si sumo toda la norma N al cuadrado:

[matemáticas] \ sum_ {i} ^ {N} || A \ mathbf {x} _i – \ mathbf {b} _i || ^ 2 = 0 [/ matemáticas],

Entonces esto es perfecto en un mundo silencioso, pero no estamos es decir, cada [math] \ mathbf {x} _i [/ ​​math] no está mapeado exactamente a un [math] \ mathbf {b} _i [/ ​​math] por A, por lo tanto, está buscando la A que le brinde la mejor solución posible, así que … ¿es esto donde desea la menor blabla cuadrada y cuándo es mínima? cuando la derivada del lado izquierdo wrt el [math] \ mathbf {x} _i [/ ​​math] es cero:

[matemáticas] \ sum_ {i} ^ {N} \ frac {\ partial \ mathbf {x} ^ TA ^ TA \ mathbf {x} -2 \ mathbf {x} ^ TA ^ T \ mathbf {b} + || \ mathbf {b} || ^ 2} {\ partial \ mathbf {x}} = 0 [/ math].

si simplificaste un poco, obtienes:

[math] \ mathbf {x} = (A ^ TA) ^ {- 1} A ^ T \ mathbf {b} [/ math] … y [math] (A ^ TA) ^ {- 1} A ^ T [ / math] es en realidad el pseudo inverso de A.

Por lo tanto, el pseudo inverso le permite minimizar el problema de una manera menos cuadrada, suponiendo que haya hecho todo este esfuerzo para formular su problema como menos cuadrado.

Sí, el producto de una matriz y su pseudo inverso es el más cercano en la norma 2 a la matriz de identidad.