¿Por qué no utilizamos una aproximación diferenciable de ReLU?

Supongo que la razón es que queremos la forma más simple de una función no lineal. La unidad lineal rectificada (ReLU) es una función no lineal que se ve casi lineal. Es decir, son dos funciones lineales fusionadas para formar una función no lineal. También se le llama rectificador , ya que puede imaginar la función como un diodo que solo permite que fluya corriente positiva y se apaga cuando la corriente es negativa. Los técnicos de ingeniería eléctrica apreciarán cuánto podrían lograr usando solo este dispositivo con características simples.

Definitivamente softplus es una aproximación buena y suave (diferenciable) de ReLU, pero no es la función no lineal más simple. Y en el contexto de las redes neuronales, no le agrega mucho poder.

Necesitaríamos una función no lineal, que preservaría la propiedad de aproximación universal (Teorema de aproximación universal – Wikipedia) de la red neuronal. Necesitamos esta propiedad crucial para asegurarnos de que podamos crear funciones (modelos) aproximadas razonablemente buenas que se ajusten a los datos observados en una variedad de tareas de aprendizaje automático e inteligencia artificial. Calcular ReLU es computacionalmente eficiente para la propagación hacia adelante y hacia atrás en la red neuronal profunda.

La red neuronal profunda se convierte en un modelo lineal enorme, si la no linealidad se reemplaza por una función lineal (por ejemplo, la función de identidad). Entonces, la red se convierte en un gran modelo de conjunto de regresión lineal, y puede no aproximarse bien a los modelos complejos.

Kurt Hornik demostró en 1991 que no es la elección específica de la función de activación, sino más bien la propia arquitectura de alimentación de múltiples capas que le da a las redes neuronales el potencial de ser aproximadores universales. Se supone siempre que las unidades de salida son lineales.

Por lo tanto, la elección debe ser una función no lineal simple que facilite la propagación rápida hacia adelante y hacia atrás. La tabla a continuación da una idea del cálculo involucrado para varias funciones de activación. Tenga en cuenta la eficiencia computacional de ReLU:

A continuación se presentan algunas funciones de activación que ReLU ha reemplazado efectivamente en la literatura de aprendizaje profundo.

Algunas variantes de ReLU son:

Otra función de activación interesante es una función no lineal que se aprende, llamada maxout. Creo que es una idea genial. Esta es una buena técnica de regularización.

Espero que esto proporcione alguna intuición útil.

He respondido esta pregunta aquí: la respuesta de Abhinav Maurya a ¿Cuáles son los beneficios de usar ReLU sobre softplus como funciones de activación? La diferenciabilidad se sobrevalora, especialmente si la parte no diferenciable que es problemática es de medida 0. Además, siempre tiene subdireccionales para la función ReLU en el punto único donde es continua pero no diferenciable. El mayor problema con ReLU no es su no diferenciabilidad sino su ilimitación (sin límite superior en el rango) que puede conducir a un aprendizaje inestable.

¿Quién dice “nosotros” no?

Hay muchas alternativas al ReLu, la más similar a la activación de softplus. A veces he encontrado que es útil para la aproximación de funciones, sin embargo, no estoy convencido de que ninguno sea mejor que el otro todavía.

Mira el muy buen resumen de activación en wikipedia:

Función de activación