¿Cuál es el problema de una base ortonormal? ¿Por qué son importantes?

Las bases ortonormales son geniales. Siendo una base, sabe que cada vector v en su espacio puede descomponerse en una combinación lineal de vectores básicos [math] v = \ sum_i a_ib_i [/ ​​math] para los vectores base [math] \ {b_i \} [/ math]. Entonces, ¿por qué es útil?

Si tiene una base ortonormal, sabe que siempre puede encontrar los coeficientes a_i en la descomposición por
[matemáticas] b_i \ cdot v = \ sum_j a_j b_i \ cdot b_j = \ sum_j a_j \ delta_ {ij} = a_i [/ ​​math].
Aquí uso la relación de ortogonalidad [matemática] b_i \ cdot b_j = \ delta_ {ij} [/ matemática] donde [matemática] \ delta_ {ij} [/ matemática] es el delta de Kronecker. Si la base no fuera ortogonal, la descomposición no sería tan fácil.

Esto puede no parecer mucho cuando se hablan vectores que viven en [math] \ mathbb R ^ n [/ math] pero en espacios de funciones es invaluable. Por ejemplo, la ortogonalidad de [math] e ^ {inx} [/ math] para diferentes n con un producto interno
[matemáticas] \ langle f (x), g (x) \ rangle = \ int_0 ^ {2 \ pi} f ^ * (x) g (x) dx [/ math]
Es la razón por la cual la descomposición de Fourier funciona tan bien. Del mismo modo, para básicamente todas las representaciones de series (ver armónicos esféricos, funciones de Bessel, etc.)

“Ortonormal” se compone de dos partes, cada una de las cuales tiene su propio significado.

1) Ortho = Ortogonal. La razón por la que esto es importante es que le permite desacoplar fácilmente un vector en sus contribuciones a diferentes componentes del vector. Considere este ejemplo:

[matemáticas] x = ax_1 + bx_2 = cy_1 + dy_2 [/ matemáticas].

Tomemos [math] y_1, y_2 [/ math] como una base que no es ortogonal y [math] x_1, x_2 [/ math] como una base que es ortogonal. Para la base ortogonal, podemos garantizar

[matemáticas] \ langle x, x_1 \ rangle = \ langle ax_1, x_1 \ rangle + \ langle bx_2, x_1 \ rangle [/ math]
[matemáticas] = a \ langle x_1, x_1 \ rangle + b \ langle x_1, x_2 \ rangle = a \ langle x_1, x_1 \ rangle [/ math]

desde [math] \ langle x_1, x_2 \ rangle = 0 [/ math] por la definición de ortogonalidad. Entonces, sabemos que podemos calcular [matemáticas] a [/ matemáticas] a partir de un cálculo interno del producto (es decir, a partir de [matemáticas] \ langle x, x_1 \ rangle = a [/ matemáticas]). En contraste, para la base no ortogonal tenemos

[matemáticas] \ langle x, y_1 \ rangle = \ langle cy_1, y_1 \ rangle + \ langle dy_2, y_1 \ rangle [/ math]
[matemáticas] = c \ langle y_1, y_1 \ rangle + d \ langle y_2, y_1 \ rangle [/ math]

Como la base no es ortogonal, no sabemos [matemática] \ langle y_2, y_1 \ rangle = 0 [/ matemática]. Eso significa que para encontrar qué es [math] c [/ math], tenemos que calcular un producto interno adicional. Es decir, dado que tenemos un desconocido adicional involucrado (es decir, [matemática] d [/ matemática]), tenemos que calcular [matemática] \ langle x, y_2 \ rangle [/ matemática] también para que podamos tener dos ecuaciones para resolver nuestras dos incógnitas. Entonces, para calcular [matemáticas] c [/ matemáticas], tenemos que calcular tanto [matemáticas] \ langle x, y_1 \ rangle, \ langle x, y_2 \ rangle [/ math] y resolver un sistema de ecuaciones lineales. Puede que no parezca mucho, pero este es solo un sistema bidimensional. Una solución general de un sistema lineal a través de la eliminación gaussiana, por ejemplo, requiere operaciones [matemáticas] O (N ^ 3) [/ matemáticas], en comparación con [matemáticas] O (N) [/ matemáticas] para la base ortogonal donde [matemáticas ] N [/ math] es la dimensión, por lo que rápidamente se vuelve mucho menos eficiente computacionalmente.

2) normal = Normal. Esto solo significa que los productos internos son unidades de longitud, de modo que [matemática] \ langle x, x_1 \ rangle = 1 [/ matemática]. Suponiendo que tiene una base ortogonal, la normalidad le evita tener que hacer una operación de división. Por ejemplo, di

[matemáticas] x = ax_1 + bx_2 = cy_1 + dy_2 [/ matemáticas]

donde [matemática] x_1, x_2 [/ matemática] es ortonormal y [matemática] y_1, y_2 [/ matemática] es meramente ortogonal. Luego, para calcular la contribución a uno de los vectores básicos en el caso ortonormal, puede calcular

[matemáticas] \ langle x, x_1 \ rangle = \ langle ax_1, x_1 \ rangle + \ langle bx_2, x_1 \ rangle [/ math]
[matemáticas] = a \ langle x_1, x_1 \ rangle = a [/ math]

En el caso meramente ortogonal hay que calcular

[matemáticas] \ langle x, y_1 \ rangle = \ langle cy_1, y_1 \ rangle + \ langle dy_2, y_1 \ rangle = c \ langle y_1, y_1 \ rangle [/ math]
lo que implica
[matemáticas] c = \ frac {\ langle x, y_1 \ rangle} {\ langle y_1, y_1 \ rangle} [/ math].
Esto implica una división adicional en comparación con el caso ortonormal.

Las bases ortonormales tienen muchas ventajas. Ya se han mencionado varias de estas cosas, así que lea las otras respuestas, pero quiero agregar otra a la mezcla: trabajar con bases ortonormales hace que la relación entre matrices y mapas lineales sea más agradable.

Considere una matriz [matemática] n \ veces n [/ matemática] compleja [matemática] M = (m_ {ij}) [/ matemática]. Dada una base (no necesariamente ortonormal) [matemática] e = \ left (e_ {j} \ right) _ {j = 1} ^ n [/ math] la matriz [math] M [/ math] define un mapa lineal [ math] T_ {M, e} [/ math] en [math] \ mathbb {C} ^ n [/ math] (considerado como vectores de columna) por [math] T_ {M, e} e_j = \ sum_ {i = 1} ^ n m_ {ij} e_i [/ ​​math].

También podemos ir en la dirección opuesta, comenzando con un mapa lineal [math] X [/ math] en [math] \ mathbb {C} ^ n [/ math] para definir una matriz [math] M_ {X, e} = (x_ {ij}) [/ math] tal que [math] Xe_j = \ sum_ {i = 1} ^ n x_ {ij} e_i [/ ​​math] para [math] 1 \ le j \ le n [/ math ] Dicha matriz existe para cualquier elección de base [matemática] e [/ matemática], pero calcularla es particularmente sencilla si [matemática] e [/ matemática] resulta ser ortonormal. Simplemente elegimos [math] x_ {ij} = \ left \ langle Xe_j | e_i \ right \ rangle [/ math].

Otra cosa agradable sucede cuando comenzamos a hablar de adjuntos. Dado un operador acotado [math] X [/ math] en [math] \ mathbb {C} ^ n [/ math], hay un operador único [math] X ^ * [/ math], llamado adjunto de [math] X [/ math], como [math] \ left \ langle X \ xi | \ eta \ right \ rangle = \ left \ langle \ xi | X ^ * \ eta \ right \ rangle [/ math] para todos [math] \ xi, \ eta \ in \ mathbb {C} ^ n [/ math]. En particular, nos interesará el adjunto [math] T_ {M, e} ^ * [/ math] del operador [math] T_ {M, e} [/ math].

También podemos definir el adjunto de una matriz. El adjunto de la matriz [matemática] M = (m_ {ij}) [/ matemática] es su transposición conjugada, [matemática] M ^ * = \ left (\ bar m_ {ji} \ right) [/ math], donde [math] \ bar m_ {ji} [/ math] denota el complejo conjugado de [math] m_ {ji} [/ math].

Para una base ortonormal, las dos nociones de adjunto coinciden. Más precisamente, si [math] e [/ math] es ortonormal entonces [math] T_ {M, e} ^ * = T_ {M ^ *, e} [/ math]. Esto no es cierto para una base arbitraria, y calcular el adjunto de un operador con respecto a una base que no es ortogonal puede ser desagradable.

Considere los vectores base [math] b_1, b_2, \ ldots, b_p [/ math]

  • Normalizado significa que el vector base tenía una unidad de longitud. Eso es [matemáticas] b_i ^ {‘} b_i = 1 [/ matemáticas].
  • Ortogonal significa que los vectores base son perpendiculares. Es decir [math] b_i ^ {‘} b_j = 0, i \ neq j [/ math].

Esto es muy conveniente en problemas prácticos y conduce a la estabilidad numérica en la computación.

Considere este ejemplo:

[matemáticas] v = ax_1 + bx_2 [/ matemáticas]

** 1. Base no ortogonal: **

Deje que [matemática] x_1 [/ matemática] [matemática], [/ matemática] [matemática] x_2 [/ matemática] sea una base no ortogonal.

[matemáticas] \ langle v, x_1 \ rangle = \ langle ax_1, x_1 \ rangle + \ langle bx_2, x_1 \ rangle \\ [/ math]

[matemáticas] = c \ langle x_1, x_1 \ rangle + d \ langle x_2, x_1 \ rangle [/ math]

Dado que la base es no ortogonal [matemática] \ langle x_2, x_1 \ rangle \ ne 0 [/ matemática]. Entonces podemos calcular la proyección de [math] v [/ math] en [math] x_1 [/ math] a partir de dos productos internos [math] \ langle x_1, x_1 \ rangle [/ math] y [math] \ langle x_2, x_1 \ rangle [/ math].

Las otras respuestas son excelentes para describir una base ortonormal.

Creo que el concepto importante es que se sabe que la variable que describe un eje es independiente de todas las demás variables de los ejes. Este es el valor de tener una base ortonormal sobre todas las demás. Le permite a uno descomponer un sistema en efectos independientes. Esto es particularmente útil en el análisis de modos de vibración y en el análisis de resistencias de materiales.