Una buena razón para hacerlo es la misma que una de las razones por las que, en estadística, se usa la desviación estándar en lugar de la desviación absoluta: es más fácil trabajar con la derivada del resultado. Esto es útil cuando se intenta ajustar un parámetro para hacer que un conjunto de vectores sea lo más pequeño posible.
“Hacer que un conjunto de vectores sea lo más pequeño posible” es bastante vago, por lo que puede haber varias formas de definir qué hace que un conjunto de vectores cuente como más pequeño que otro. Idealmente, uno asignaría un número a esto. Como sugiere la pregunta (implícitamente), una forma de hacerlo es encontrar la magnitud promedio; es decir, [matemáticas] \ frac {\ sum \ limits _ {i = 1} ^ N {\ sqrt {x_i ^ 2 + y_i ^ 2}}} {N} [/ matemáticas], donde [matemáticas] x_i [/ math] y [math] y_i [/ math] son los componentes del error para el punto [math] i [/ math], y [math] N [/ math] es el número total de puntos.
Por lo general, no es posible cambiar uno de los [math] x_i [/ math] so [math] y_i [/ math] s sin cambiar los otros. Supongamos, por simplicidad, que todas las [matemáticas] x_i [/ matemáticas] y [matemáticas] y_i [/ matemáticas] s son funciones de un parámetro, [matemáticas] t [/ matemáticas]. Entonces, para minimizar la magnitud promedio, [math] t [/ math] debe ser tal que
[matemática] \ frac {d} {dt} \ left [\ frac {\ sum \ limits _ {i = 1} ^ N {\ sqrt {x_i ^ 2 + y_i ^ 2}}}} {N} \ right] = 0 [/ matemáticas]
- ¿Cuáles son las relaciones de desigualdad que tiene el rango con las filas y columnas de una matriz?
- ¿Cómo se relacionan los productos tensoriales con las transformaciones geométricas como el corte y la rotación?
- Cómo obtener un vector de dirección en un espacio 2D
- ¿Es una matriz en álgebra lineal solo un conjunto de vectores?
- Cómo demostrar [matemáticas] \ text {dim} (\ mathbb {U} + \ mathbb {W}) = \ text {dim} (\ mathbb {U}) + \ text {dim} (\ mathbb {W}) – \ text {dim} (\ mathbb {U} \ cap \ mathbb {W}) \ text {
(o [math] t [/ math] podría ser un punto final de cualquier intervalo en el que [math] t [/ math] esté permitido).
[matemáticas] \ frac {\ sum \ limits _ {i = 1} ^ N {\ frac {d} {dt} \ left [\ sqrt {x_i ^ 2 + y_i ^ 2} \ right]}} {N} = 0 [/ matemáticas]
[matemáticas] \ frac {\ sum \ limits _ {i = 1} ^ N {\ frac {2 x_i \ frac {dx_i} {dt} + 2 y_i \ frac {dy_i} {dt}} {2 \ sqrt {x_i ^ 2 + y_i ^ 2}}}} {N} = 0 [/ matemáticas]
[matemáticas] \ suma \ límites _ {i = 1} ^ N {\ frac {x_i \ frac {dx_i} {dt} + y_i \ frac {dy_i} {dt}} {\ sqrt {x_i ^ 2 + y_i ^ 2 }}} = 0 [/ matemáticas]
Es bastante difícil trabajar con él, porque, por ejemplo, los términos corresponden a cambios en [math] x_i [/ math] también dependen de [math] y_i [/ math].
Con la magnitud cuadrática media,
[matemática] \ sqrt {\ frac {\ sum \ limits _ {i = 1} ^ N {\ left (x_i ^ 2 + y_i ^ 2 \ right)}} {N}} [/ math]
La optimización nuevamente requiere una derivada cero (o un punto final), por lo que:
[matemáticas] \ frac {d} {dt} \ left [\ sqrt {\ frac {\ sum \ limites _ {i = 1} ^ N {\ left (x_i ^ 2 + y_i ^ 2 \ right)}} {N }} \ right] = 0 [/ math]
[matemáticas] \ frac {\ frac {d} {dt} \ left [\ frac {\ sum \ limits _ {i = 1} ^ N {\ left (x_i ^ 2 + y_i ^ 2 \ right)}} {N } \ right]} {2 \ sqrt {\ frac {\ sum \ limits _ {i = 1} ^ N {\ left (x_i ^ 2 + y_i ^ 2 \ right)}} {N}}} = 0 [/ matemáticas]
[matemáticas] \ frac {\ frac {\ sum \ limites _ {i = 1} ^ N {\ frac {d} {dt} \ left [x_i ^ 2 + y_i ^ 2 \ right]}} {N}} { 2 \ sqrt {\ frac {\ sum \ limits _ {i = 1} ^ N {\ left (x_i ^ 2 + y_i ^ 2 \ right)}} {N}}} = 0 [/ math]
[matemáticas] \ frac {\ frac {\ sum \ limites _ {i = 1} ^ N {\ left (2 x_i \ frac {dx_i} {dt} + 2 y_i \ frac {dy_i} {dt} \ right)} } {N}} {2 \ sqrt {\ frac {\ sum \ limits _ {i = 1} ^ N {\ left (x_i ^ 2 + y_i ^ 2 \ right)}} {N}}} = 0 [/ matemáticas]
[matemáticas] \ frac {\ sum \ limits _ {i = 1} ^ N {\ left (x_i \ frac {dx_i} {dt} + y_i \ frac {dy_i} {dt} \ right)}} {\ sqrt { \ frac {\ sum \ limits _ {i = 1} ^ N {\ left (x_i ^ 2 + y_i ^ 2 \ right)}} {N}}} = 0 [/ math]
Tenga en cuenta que, ahora, toda la suma se divide por el denominador con una raíz cuadrada, por lo que ambos lados se pueden multiplicar por este denominador sin perder información. (El único momento en que el denominador será cero es el caso excepcional de que todas las [matemáticas] x_i [/ matemáticas] y [matemáticas] y_i [/ matemáticas] sean cero).
[matemáticas] \ suma \ límites _ {i = 1} ^ N {\ izquierda (x_i \ frac {dx_i} {dt} + y_i \ frac {dy_i} {dt} \ right)} = 0 [/ matemáticas]
Es más fácil trabajar con él: por un lado, todos los componentes están desacoplados entre sí y no hay raíces cuadradas.
Por lo tanto, un punto de usar la magnitud cuadrática media es que es más fácil realizar cálculos de optimización con ella.
Sin embargo, para ser justos, no siempre es el mejor criterio. Por un lado, tiende a enfatizar vectores grandes individuales, al igual que, en estadística, la desviación estándar enfatiza puntos lejanos únicos, en oposición a la desviación absoluta (distancia absoluta promedio de la media); de hecho, la cuestión de si se debe usar la desviación estándar o la desviación absoluta es un caso especial de usar la magnitud media o la raíz cuadrática media. Eso (énfasis en valores grandes individuales) puede o no ser deseable, dependiendo del contexto.