¿Cuál es una buena manera de entender este concepto en álgebra lineal?

Las otras respuestas son buenas, completas y generales, por lo que solo intentaré proporcionar alguna intuición geométrica adicional.

Es fácil creer visualmente que la distancia más corta entre un punto y una línea es la ruta recta desde la línea hasta el punto que es de 90 grados. Mira la foto:
Como [math] w [/ math] es normal a la línea, eso significa que el vector desde el origen hasta el punto [math] x [/ math] en la línea, que es puntos de distancia mínima en la misma dirección, como se ilustra en este imagen:
Como [math] w [/ math] y [math] x [/ math] apuntan en la misma dirección, el ángulo entre ellos es 0. Recuerde que el producto de puntos puede expresarse como

[matemáticas] \ langle w, x \ rangle = \ | w \ | \ | x \ | \ cos (\ psi) [/ matemáticas]

donde [math] \ psi [/ math] es el ángulo entre [math] w [/ math] y [math] x [/ math]. Como este ángulo es 0, [math] \ cos (\ psi) = 1 [/ math]. Insertando esto en la ecuación de la línea (la escribo de forma ligeramente diferente a lo que muestra su imagen, pero es equivalente) [matemática] \ langle w, x \ rangle – b = 0 [/ matemática], encuentra [matemática] \ langle w, x \ rangle = \ | w \ | \ | x \ | \ cos (\ psi) = \ | w \ | \ | x \ | = b [/ matemáticas]. Resuelve [math] \ | x \ | [/ math] para encontrar tu distancia dándote [math] \ | x \ | = b / \ | w \ | [/matemáticas] . El valor absoluto se usa para [math] b [/ math] para manejar casos donde la intersección es negativa.

También puede obtener algo de intuición al observar casos simples y específicos, como cuando la línea es horizontal. Aquí, la ecuación es

[matemáticas] \ langle w, x \ rangle = 0 \ cdot x_1 + w_2 x_2 = w_2 x_2 = b [/ math],

donde estoy identificando [math] x_2 [/ math] con el eje y. La línea más corta en este caso es claramente hacia arriba en el eje y. Aquí hay una ilustración:


Si bien este es un caso muy específico, los otros casos pueden estar relacionados con él mediante un cambio de coordenadas, por lo que todavía es algo representativo.

Puede haber una forma más simple de pensarlo. Pero para mí, el siguiente enfoque es la forma más fácil de entenderlo, porque se generaliza bastante bien en muchos casos.

Dado el hiperplano [math] \ langle w, x \ rangle + b = 0 [/ math], podemos dibujar varios vectores desde el origen hasta cada punto en este hiperplano. La distancia entre el hiperplano y el origen está dada por la longitud del vector más corto entre este conjunto de vectores.

Entonces, estamos buscando
[matemáticas] \ min_ {x} \ | x \ | ^ 2 [/ matemáticas] sujeto a: [matemáticas] \ langle w, x \ rangle + b = 0 [/ matemáticas]

Considere el lagrangiano,
[matemáticas] \ matemáticas {L} (x, \ lambda) = \ | x \ | ^ 2 + \ lambda (\ langle w, x \ rangle + b) [/ matemáticas]
Ahora,
[matemática] \ frac {\ parcial \ matemática {L}} {\ parcial x} = 2x + \ lambda w = 0 [/ matemática]
[matemáticas] \ frac {\ partial \ mathcal {L}} {\ partial \ lambda} = \ langle w, x \ rangle + b = 0 [/ math]
Por lo tanto, [matemáticas] x = – \ frac {\ lambda} {2} w [/ matemáticas] y
[matemáticas] \ langle w, x \ rangle = – \ frac {\ lambda} {2} \ | w \ | ^ 2 = -b [/ math].
Esto implica, [math] \ lambda = \ frac {2b} {\ | w \ | ^ 2} [/ math].

Por lo tanto, [matemática] x = – \ frac {b} {\ | w \ | ^ 2} w [/ matemática] y su longitud es [matemática] \ frac {| b |} {\ | w \ |} [/ matemáticas].


Uno puede pensar en el proceso anterior como encontrar la proyección de origen en el hiperplano bajo métrica euclidiana. En general, dado un conjunto deseado [matemática] S [/ matemática] de puntos y otro punto [matemática] y [/ matemática]. Podemos encontrar la proyección del punto [matemática] y [/ matemática] en [matemática] S [/ matemática] bajo métrica euclidiana como,
[matemáticas] \ min_x \ | x – y \ | ^ 2 [/ matemáticas] sujeto a: [matemáticas] x \ en S [/ matemáticas]

En el caso anterior, [math] S [/ math] es el hiperplano e y es el origen.

Deje que [math] x \ in \ mathbf {R} ^ n [/ math] sea un punto en el hiperplano (en su situación, una línea y [math] n = 2 [/ math]).

Su distancia al origen es [matemáticas] || x || [/ matemáticas].

Ahora usando la desigualdad de Cauchy-Schwarz obtienes:

[matemáticas] | (w, x) | \ leq || x || \ cdot || w || [/ math]

Tenga en cuenta que geométricamente solo repite que el coseno del ángulo entre [matemática] x [/ matemática] y [matemática] w [/ matemática] no excede de 1 en absoluto.

Implica [matemáticas] || x || \ geq \ dfrac {| (w, x) |} {|| w ||} [/ math].

Como [math] x [/ math] se encuentra en el hiperplano, [math] (w, x) = -b [/ math], y obtienes:

[matemáticas] || x || \ geq \ dfrac {| b |} {|| w ||} [/ math]

La desigualdad de Cauchy-Schwarz se convierte en igualdad si y solo si [math] x [/ math] y [math] w [/ math] son ​​colineales (dado que [math] x [/ math] se encuentra en el hiperplano, obtienes [ matemáticas] x = \ lambda w [/ matemáticas] con [matemáticas] \ lambda = – \ dfrac {b} {(w, w)} [/ matemáticas]).

Por lo tanto, tiene: [math] || x || = \ dfrac {| b |} {|| w ||} [/ math] para la distancia mínima.