Espero que comprenda la arquitectura de las redes neuronales de retropropagación y las redes neuronales recurrentes. Se puede ver que al igual que en el caso de BPNN simple, el paso de retroceso en RNN simplemente obtenemos el derivado de error por la regla de descenso de gradiente y esta regla de actualización de peso es lineal y se puede expresar en forma de una regla delta generalizada.
En el paso de avance, inducimos la no linealidad mediante la introducción de funciones de activación para que incluso los datos que inicialmente no sean linealmente separables puedan modelarse efectivamente (por ejemplo, la función XOR). El paso de retroceso es solo una forma de actualizar los pesos para que podamos alcanzar un mínimo local fácilmente por Gradient Descent sin tener que probar todos y cada uno de los pesos posibles (lo que puede llevar años …). No hay necesidad de inducir ninguna no linealidad en el paso de retroceso.
Esta conferencia podría ayudarlo a comprender mejor las cosas:
- ¿Qué es una transformación lineal?
- ¿Cambiar el orden de sus desplazamientos en el diagrama vectorial afectará la magnitud y la dirección del vector resultante?
- ¿Cuál es la diferencia entre una norma y una distancia en matemáticas / espacios vectoriales, y siempre puedes definir una distancia desde una norma o viceversa?
- En la SVD de A, ¿por qué el vector singular izquierdo es la base del espacio de la columna?
- ¿Cuál es el espacio de los planos en [math] \ mathbb {R} ^ 4 [/ math] que no pasan por el origen?