¿Cuál es una explicación de una parte de la derivación del algoritmo de retropropagación?

La explicación se da en varias líneas de texto que preceden a la ecuación en cuestión, comenzando con la oración “Sin embargo, si j está en una capa interna arbitraria de la red …”

La suma surge de la manera en que se aplica la regla de la cadena cuando expresa una derivada total a través de derivadas parciales. Considere una función [math] y (x_1, x_2,…, x_n) [/ math], donde [math] x_i [/ ​​math] puede parametrizarse en términos de la variable [math] t [/ math], es decir , [matemáticas] x_i = x_i (t) [/ matemáticas]. Entonces

[matemáticas] \ frac {dy} {dt} = \ sum_ {i = 1} ^ n \ frac {\ partial y} {\ partial x_i} \ frac {dx_i} {dt}. [/ math]

El texto de Wikipedia lo hace un poco más confuso de lo necesario, utilizando el operador de derivada parcial [matemática] \ parcial [/ matemática] de forma algo descuidada en los casos en que la función que se diferencia es una función de una sola variable, o la derivada que se toma es Una derivada total.

Dado que da salida a varias neuronas en la siguiente capa, debe sumar los errores de esas neuronas a medida que calcula el delta de una neurona oculta, a diferencia de una neurona de salida que solo genera un valor único.