Considere el caso más simple donde [matemática] A [/ matemática] es una matriz diagonal de 2 x 2, digamos [matemática] A = diag ([a_1, a_2]) [/ matemática]. Luego, los contornos de la función objetivo [matemáticas] \ | Ax – b \ | ^ 2 [/ math] serán elipses alineadas al eje como se muestra en la siguiente figura:
Suponga que comienza en el punto marcado en rojo. Observe que para alcanzar el punto óptimo, debe dar un paso muy grande en la dirección horizontal pero un pequeño paso en la dirección vertical. La dirección de descenso viene dada por la flecha verde. Si sigue esta dirección, se moverá una distancia mayor en la dirección vertical y una distancia menor en la dirección horizontal. Si da un pequeño paso a lo largo del gradiente, cubrir la gran distancia horizontal hasta el óptimo requerirá una gran cantidad de pasos. Si da un gran paso a lo largo del gradiente, sobrepasará lo óptimo en la dirección vertical.
Este comportamiento se debe a la forma de los contornos. Cuanto más circulares sean los contornos, más rápido convergerá al óptimo. El alargamiento de las elipses viene dado por la relación entre los valores propios más grandes y más pequeños de la matriz [matemática] A [/ matemática].
- ¿Cuáles son las diferencias básicas entre SVD (Descomposición de valor singular) y EVD (Descomposición de valor de Eigen)?
- ¿Abandonamos el orden de las operaciones al resolver problemas de álgebra de dos pasos?
- En el aprendizaje automático, ¿cómo podemos determinar si un problema es lineal / no lineal?
- ¿Por qué las matrices ortogonales representan rotaciones / reflexiones e isometrías y qué representan las matrices unitarias en la teoría de grupos?
- ¿Podemos hacer una transformación lineal del espacio vectorial unidimensional al espacio vectorial tetradimensional cuando la dimensión del espacio de rango es 2?