Mientras que las otras respuestas se centraron en algunas de las virtudes del uso del operador de proyección (es decir, la solución a los mínimos cuadrados ordinarios), permítanme explicar * por qué * el L2 y * por qué * es susceptible de álgebra lineal.
Earl Hathaway es esencialmente correcto, pero consiéntame dar otra explicación. Todo se reduce a lo que significa [matemáticas] \ aprox [/ matemáticas]. En el contexto de la regresión lineal básica, [matemática] y \ aprox. X \ beta [/ matemática] significa [matemática] y = X \ beta + \ varepsilon [/ matemática], donde [matemática] \ varepsilon \ sim \ matemática { N} (0, \ Sigma) [/ math] para alguna matriz definida positiva [math] \ Sigma [/ math]. Es decir, [math] \ varepsilon = y – X \ beta [/ math].
Según el modelo gaussiano, la probabilidad es:
[matemáticas] \ frac {1} {(2 \ pi) ^ {\ frac {p} {2}} (det \ Sigma) ^ {\ frac {1} {2}}} \ exp \ left (- \ frac {1} {2} \ varepsilon ^ T \ Sigma ^ {- 1} \ varepsilon \ right) [/ math], donde p es la dimensión de y (o, de manera equivalente, las filas de la matriz X o epsilon).
En la regresión lineal ordinaria, suponemos que [math] \ Sigma = I [/ math] (2), la matriz de identidad. Sustituyendo [math] \ varepsilon [/ math], la ecuación de probabilidad transformada logarítmica (constantes de módulo) se convierte en:
[matemáticas] || \ epsilon || _2 ^ 2 = || y – X \ beta || _2 ^ 2 [/ matemáticas],
cuya maximización requiere el método OLS.
Su pregunta sobre por qué no usar L1 vs. L4 o cualquier otra norma es ciertamente válida, pero la norma L2 tiene esta interpretación de ruido gaussiana. La norma L1, por otro lado, puede verse como [math] y = X \ beta + \ varepsilon [/ math] donde [math] \ varepsilon \ sim \ mathrm {Laplace} [/ math].
Stephen Boyd tiene una excelente discusión sobre esto en la Sección 7.1 de su libro Convex Optimization. Lea también la sección 6.1 para una discusión sobre la elección del parámetro de penalización (por ejemplo, L1, L2, Huber) (3). Revise algunas de sus notas de conferencia convexas también: es bueno para usted 🙂
Finalmente, una nota sobre sus manipulaciones matriciales … así es como lo vería:
[matemáticas] \ mathrm {argmax} _ \ beta || y – X \ beta || _2 = \ mathrm {argmax} _ \ beta || y – X \ beta || _2 ^ 2 [/ matemática]. Primero tenga en cuenta que este problema de optimización no tiene restricciones en [math] \ beta [/ math], y además es convexo. Luego tomando la derivada de [math] \ beta [/ math] (4) y estableciendo la expresión resultante en cero
[matemáticas] X ^ T (y – X \ beta) = 0 [/ matemáticas]. Luego obtienes [math] \ beta = (X ^ TX) ^ {- 1} X ^ T y [/ math] (5) como desees.
Espero que esto ayude. Por favor comente para cualquier aclaración.
(1) Eh, por qué no. No me gusta cómo se supone que MLE es la forma más racional de hacer las cosas, pero estoy divagando …
(2) ¡Ay! Pero, sorprendentemente, uno puede hacer una estimación penalizada de [math] \ Sigma [/ math] y es un problema de optimización convexa. Sin embargo, es un problema muy diferente.
(3) Uno puede renunciar a todas estas estadísticas mumbo-jumbo y llegar directamente a penalizar el error en [math] y = X \ beta [/ math]
(4) Dónde usamos la identidad:
[matemáticas]
\ frac {\ partial} {\ partial \ beta} || X \ beta || _2 ^ 2 = \ frac {\ partial} {\ partial \ beta} \ beta ^ TX ^ TX \ beta = 2 X ^ TX \ beta
[/matemáticas]
(5) Donde el inverso solo está permitido cuando [math] (X ^ TX) ^ {- 1} [/ math] es positivo definido. Pero como es simétrico, es al menos semidefinido positivo …