¡¿Espero que sepas sobre la pérdida de Bisagra ?! Creo que es la pérdida de la bisagra cuadrada lo que quiere decir usted?
Aquí está la respuesta.
Comencemos definiendo la función de pérdida de bisagra h (x) = max (1 − x, 0). [Matemáticas] h (x) = max (1 − x, 0). [/ Matemáticas] Ahora pensemos en la derivada h ′ (X) [matemática] h ′ (x) [/ matemática]. Esto no existe en x = 1 [matemática] x = 1 [/ matemática] porque los límites izquierdo y derecho no convergen al mismo número (es decir: la derivada no está definida en x = 1 [matemática] x = 1 [/ matemática], pero es -1 para x <1 [matemática] x 1 [matemática] x> 1 [/ matemática].) El hecho es que, para la mayoría de los casos de uso, el la probabilidad de que tenga que evaluar h (1) [matemáticas] h (1) [/ matemáticas] es básicamente 0, por lo que puede evitarlo diciendo que h (1) = C [matemáticas] h (1) = C [/ math], para − 1⩽C⩽0. [math] −1⩽C⩽0. [/ math] Sin embargo, esta es solo la solución de un ingeniero y no es matemáticamente riguroso.
Para la pérdida de bisagra al cuadrado (h (x)) 2, [matemática] (h (x)) 2, la derivada [/ matemática] es −2h (x) h ′ (x). [Matemática] −2h (x) h ′ (X). [/ Math] Mientras que h ′ (x) [math] h ′ (x) [/ math] de hecho no está definido en x = 1, sabemos que es un número entre -1 y 0. Por otro lado mano, h (1) = 0, [matemática] h (1) = 0, [/ matemática] por lo que la derivada de la pérdida de bisagra al cuadrado es definitivamente 0 en x = 0. [matemática] x = 0. [/ matemática]
- ¿Se puede escribir la ecuación diferencial para la variación de presión en un fluido estático como y medido verticalmente hacia abajo?
- Aprendemos cómo resolver muchos tipos de ecuaciones diferenciales, pero ¿cómo derivamos DE más complejos de sistemas además de las leyes de Newton y Kirchhoff?
- ¿Cuál es la solución de ecuaciones de Bessel, en pasos sencillos?
- ¿Alguien puede proporcionarme la solución de ecuaciones de Bessel?
- Si x ^ 2 + xy + y ^ 2 = 0, entonces, ¿qué es d ^ 2y / dx ^ 2?
La pérdida de bisagra al cuadrado es diferenciable porque el término h (x) [matemática] h (x) [/ matemática] de la regla de la cadena obliga a los límites a converger al mismo número desde ambos lados. Francamente, no veo por qué importa la diferenciabilidad. Como se mencionó anteriormente, solo decir h (1) = – [matemáticas] h (1) = – [/ matemáticas] 0.5 [matemáticas] 0.5 [/ matemáticas] o algo solucionará la mayoría de los problemas prácticos. El hecho es que las capas RELU en las redes neuronales se enfrentan exactamente al mismo problema. (Mi opinión es que un RELU es para la capa de activación sigmoidea del mismo modo que el objetivo SVM es para el objetivo de regresión logística; en ambos casos, es una forma barata y fácil de combatir los gradientes que desaparecen y / o forzar la dispersión en la optimización).