¿Por qué es OLS solucionable a partir de álgebra lineal simple? ¿Por qué es especial la pérdida de L2?

La pérdida de L2 es especial porque la pérdida de L2 corresponde a la distancia euclidiana. La aproximación de mínimos cuadrados [matemática] \ hat {Y} = X \ hat {\ beta} [/ matemática] de [matemática] Y [/ matemática] es el punto más cercano a [matemática] Y [/ matemática] en el plano atravesado por las columnas de [matemáticas] X [/ matemáticas]. La propiedad clave de la distancia euclidiana que utilizamos es:

Si [math] \ hat {Y} [/ math] es el punto más cercano (en distancia euclidiana) a [math] Y [/ math] en el plano atravesado por las columnas de [math] X [/ math], entonces [ math] Y – \ hat {Y} [/ math] es ortogonal a este plano.

Esta propiedad clave, que es una consecuencia del teorema de Pitágoras, no se mantendría para el punto más cercano en la distancia L1 o L4.

Usando la propiedad clave, obtenemos:
[matemáticas] X ^ T (Y – X \ hat {\ beta}) = 0. [/ matemáticas]
que se reorganiza fácilmente para obtener la fórmula habitual para [math] \ hat {\ beta} [/ math]. Esta es la razón por la que la distancia L2 conduce a una matemática matricial fácil.

¿Cómo calcularía la similitud de coseno usando vectores de esta estructura?

¿Cómo podemos resolver un sistema de ecuaciones matriciales de alta dimensión?

Álgebra lineal: ¿cómo se resuelven las ecuaciones de valor propio acopladas?

¿Qué son los jacobianos, los hessianos, los wronskianos y los laplacianos?

En un modelo de entrada-salida, ¿cuál es el significado de los vectores propios de la matriz de entrada-salida?

¿Cuál es la importancia de S en la reconstrucción de las relaciones de coseno de fila de M en B = U * S con M = U * S * V ‘(SVD)?

Mientras que las otras respuestas se centraron en algunas de las virtudes del uso del operador de proyección (es decir, la solución a los mínimos cuadrados ordinarios), permítanme explicar * por qué * el L2 y * por qué * es susceptible de álgebra lineal.

Earl Hathaway es esencialmente correcto, pero consiéntame dar otra explicación. Todo se reduce a lo que significa [matemáticas] \ aprox [/ matemáticas]. En el contexto de la regresión lineal básica, [matemática] y \ aprox. X \ beta [/ matemática] significa [matemática] y = X \ beta + \ varepsilon [/ matemática], donde [matemática] \ varepsilon \ sim \ matemática { N} (0, \ Sigma) [/ math] para alguna matriz definida positiva [math] \ Sigma [/ math]. Es decir, [math] \ varepsilon = y – X \ beta [/ math].

Según el modelo gaussiano, la probabilidad es:
[matemáticas] \ frac {1} {(2 \ pi) ^ {\ frac {p} {2}} (det \ Sigma) ^ {\ frac {1} {2}}} \ exp \ left (- \ frac {1} {2} \ varepsilon ^ T \ Sigma ^ {- 1} \ varepsilon \ right) [/ math], donde p es la dimensión de y (o, de manera equivalente, las filas de la matriz X o epsilon).

En la regresión lineal ordinaria, suponemos que [math] \ Sigma = I [/ math] (2), la matriz de identidad. Sustituyendo [math] \ varepsilon [/ math], la ecuación de probabilidad transformada logarítmica (constantes de módulo) se convierte en:
[matemáticas] || \ epsilon || _2 ^ 2 = || y – X \ beta || _2 ^ 2 [/ matemáticas],
cuya maximización requiere el método OLS.

Su pregunta sobre por qué no usar L1 vs. L4 o cualquier otra norma es ciertamente válida, pero la norma L2 tiene esta interpretación de ruido gaussiana. La norma L1, por otro lado, puede verse como [math] y = X \ beta + \ varepsilon [/ math] donde [math] \ varepsilon \ sim \ mathrm {Laplace} [/ math].

Stephen Boyd tiene una excelente discusión sobre esto en la Sección 7.1 de su libro Convex Optimization. Lea también la sección 6.1 para una discusión sobre la elección del parámetro de penalización (por ejemplo, L1, L2, Huber) (3). Revise algunas de sus notas de conferencia convexas también: es bueno para usted 🙂

Finalmente, una nota sobre sus manipulaciones matriciales … así es como lo vería:
[matemáticas] \ mathrm {argmax} _ \ beta || y – X \ beta || _2 = \ mathrm {argmax} _ \ beta || y – X \ beta || _2 ^ 2 [/ matemática]. Primero tenga en cuenta que este problema de optimización no tiene restricciones en [math] \ beta [/ math], y además es convexo. Luego tomando la derivada de [math] \ beta [/ math] (4) y estableciendo la expresión resultante en cero
[matemáticas] X ^ T (y – X \ beta) = 0 [/ matemáticas]. Luego obtienes [math] \ beta = (X ^ TX) ^ {- 1} X ^ T y [/ math] (5) como desees.

Espero que esto ayude. Por favor comente para cualquier aclaración.

(1) Eh, por qué no. No me gusta cómo se supone que MLE es la forma más racional de hacer las cosas, pero estoy divagando …
(2) ¡Ay! Pero, sorprendentemente, uno puede hacer una estimación penalizada de [math] \ Sigma [/ math] y es un problema de optimización convexa. Sin embargo, es un problema muy diferente.
(3) Uno puede renunciar a todas estas estadísticas mumbo-jumbo y llegar directamente a penalizar el error en [math] y = X \ beta [/ math]
(4) Dónde usamos la identidad:
[matemáticas]
\ frac {\ partial} {\ partial \ beta} || X \ beta || _2 ^ 2 = \ frac {\ partial} {\ partial \ beta} \ beta ^ TX ^ TX \ beta = 2 X ^ TX \ beta
[/matemáticas]
(5) Donde el inverso solo está permitido cuando [math] (X ^ TX) ^ {- 1} [/ math] es positivo definido. Pero como es simétrico, es al menos semidefinido positivo …

Charles Krohn

Ha pasado mucho tiempo desde que me ocupé de esto, pero creo que la respuesta que estás buscando está contenida en el teorema de Gauss-Markov [1]. Esto establece que el estimador OLS, definido como [matemático] (X ‘X) ^ {- 1} X’ Y [/ matemático], es el mejor estimador lineal no sesgado, donde “mejor” se define como minimizar el error cuadrático medio.

[1] http://en.wikipedia.org/wiki/Gau …

Charles Krohn

More Interesting

¿Cuáles son las aplicaciones del álgebra lineal en el aprendizaje automático?

¿Existen otras descomposiciones matriciales que no sean SVD que encuentran el mínimo global de algún error de reconstrucción?

¿Cuáles son algunas técnicas efectivas de factorización matricial y sus casos de uso?

Álgebra lineal: ¿cómo puedo encontrar una ecuación de verificación de paridad?

Con respecto a las matrices, ¿cómo puede probar que si A tiene un inverso que A al cuadrado también tiene un inverso?

¿Cómo instalo la biblioteca Ruby linalg en Mac?

¿Cómo puedo abordar la selección de vectores efectivos usando la descomposición del valor singular?

¿Qué artículos han sido los más interesantes en la factorización matricial en 2011?

Álgebra abstracta: ¿Cómo se transforma una matriz en su forma escalonada?

¿Por qué una matriz tiene que ser cuadrada para obtener una matriz inversa?