¿Por qué es OLS solucionable a partir de álgebra lineal simple? ¿Por qué es especial la pérdida de L2?

La pérdida de L2 es especial porque la pérdida de L2 corresponde a la distancia euclidiana. La aproximación de mínimos cuadrados [matemática] \ hat {Y} = X \ hat {\ beta} [/ matemática] de [matemática] Y [/ matemática] es el punto más cercano a [matemática] Y [/ matemática] en el plano atravesado por las columnas de [matemáticas] X [/ matemáticas]. La propiedad clave de la distancia euclidiana que utilizamos es:

Si [math] \ hat {Y} [/ math] es el punto más cercano (en distancia euclidiana) a [math] Y [/ math] en el plano atravesado por las columnas de [math] X [/ math], entonces [ math] Y – \ hat {Y} [/ math] es ortogonal a este plano.

Esta propiedad clave, que es una consecuencia del teorema de Pitágoras, no se mantendría para el punto más cercano en la distancia L1 o L4.

Usando la propiedad clave, obtenemos:
[matemáticas] X ^ T (Y – X \ hat {\ beta}) = 0. [/ matemáticas]
que se reorganiza fácilmente para obtener la fórmula habitual para [math] \ hat {\ beta} [/ math]. Esta es la razón por la que la distancia L2 conduce a una matemática matricial fácil.

Mientras que las otras respuestas se centraron en algunas de las virtudes del uso del operador de proyección (es decir, la solución a los mínimos cuadrados ordinarios), permítanme explicar * por qué * el L2 y * por qué * es susceptible de álgebra lineal.

Earl Hathaway es esencialmente correcto, pero consiéntame dar otra explicación. Todo se reduce a lo que significa [matemáticas] \ aprox [/ matemáticas]. En el contexto de la regresión lineal básica, [matemática] y \ aprox. X \ beta [/ matemática] significa [matemática] y = X \ beta + \ varepsilon [/ matemática], donde [matemática] \ varepsilon \ sim \ matemática { N} (0, \ Sigma) [/ math] para alguna matriz definida positiva [math] \ Sigma [/ math]. Es decir, [math] \ varepsilon = y – X \ beta [/ math].

Según el modelo gaussiano, la probabilidad es:
[matemáticas] \ frac {1} {(2 \ pi) ^ {\ frac {p} {2}} (det \ Sigma) ^ {\ frac {1} {2}}} \ exp \ left (- \ frac {1} {2} \ varepsilon ^ T \ Sigma ^ {- 1} \ varepsilon \ right) [/ math], donde p es la dimensión de y (o, de manera equivalente, las filas de la matriz X o epsilon).

En la regresión lineal ordinaria, suponemos que [math] \ Sigma = I [/ math] (2), la matriz de identidad. Sustituyendo [math] \ varepsilon [/ math], la ecuación de probabilidad transformada logarítmica (constantes de módulo) se convierte en:
[matemáticas] || \ epsilon || _2 ^ 2 = || y – X \ beta || _2 ^ 2 [/ matemáticas],
cuya maximización requiere el método OLS.

Su pregunta sobre por qué no usar L1 vs. L4 o cualquier otra norma es ciertamente válida, pero la norma L2 tiene esta interpretación de ruido gaussiana. La norma L1, por otro lado, puede verse como [math] y = X \ beta + \ varepsilon [/ math] donde [math] \ varepsilon \ sim \ mathrm {Laplace} [/ math].

Stephen Boyd tiene una excelente discusión sobre esto en la Sección 7.1 de su libro Convex Optimization. Lea también la sección 6.1 para una discusión sobre la elección del parámetro de penalización (por ejemplo, L1, L2, Huber) (3). Revise algunas de sus notas de conferencia convexas también: es bueno para usted 🙂

Finalmente, una nota sobre sus manipulaciones matriciales … así es como lo vería:
[matemáticas] \ mathrm {argmax} _ \ beta || y – X \ beta || _2 = \ mathrm {argmax} _ \ beta || y – X \ beta || _2 ^ 2 [/ matemática]. Primero tenga en cuenta que este problema de optimización no tiene restricciones en [math] \ beta [/ math], y además es convexo. Luego tomando la derivada de [math] \ beta [/ math] (4) y estableciendo la expresión resultante en cero
[matemáticas] X ^ T (y – X \ beta) = 0 [/ matemáticas]. Luego obtienes [math] \ beta = (X ^ TX) ^ {- 1} X ^ T y [/ math] (5) como desees.

Espero que esto ayude. Por favor comente para cualquier aclaración.

(1) Eh, por qué no. No me gusta cómo se supone que MLE es la forma más racional de hacer las cosas, pero estoy divagando …
(2) ¡Ay! Pero, sorprendentemente, uno puede hacer una estimación penalizada de [math] \ Sigma [/ math] y es un problema de optimización convexa. Sin embargo, es un problema muy diferente.
(3) Uno puede renunciar a todas estas estadísticas mumbo-jumbo y llegar directamente a penalizar el error en [math] y = X \ beta [/ math]
(4) Dónde usamos la identidad:
[matemáticas]
\ frac {\ partial} {\ partial \ beta} || X \ beta || _2 ^ 2 = \ frac {\ partial} {\ partial \ beta} \ beta ^ TX ^ TX \ beta = 2 X ^ TX \ beta
[/matemáticas]
(5) Donde el inverso solo está permitido cuando [math] (X ^ TX) ^ {- 1} [/ math] es positivo definido. Pero como es simétrico, es al menos semidefinido positivo …

Ha pasado mucho tiempo desde que me ocupé de esto, pero creo que la respuesta que estás buscando está contenida en el teorema de Gauss-Markov [1]. Esto establece que el estimador OLS, definido como [matemático] (X ‘X) ^ {- 1} X’ Y [/ matemático], es el mejor estimador lineal no sesgado, donde “mejor” se define como minimizar el error cuadrático medio.

[1] http://en.wikipedia.org/wiki/Gau