Absolutamente puede hacer eso, pero hay varias razones por las que generalmente no se hace:
- Va a ser muy lento
- Para las convoluciones, tenemos la Transformada rápida de Fourier (FFT) para acelerarlas. No tendrá nada de eso para operaciones más generales.
- La linealidad es una propiedad realmente agradable.
- Si está clasificando imágenes y tiene dos imágenes que son totalmente idénticas, excepto que la intensidad aumenta, una convolución lineal se escalará en consecuencia y verá las mismas características. Una función no lineal como la que sugirió se volverá absolutamente loca. Sin embargo, hay algunas funciones no lineales que lo manejarían bien.
- Haría el entrenamiento realmente difícil.
- Una función no lineal es mucho más probable que provoque un hessian (matriz de segundas derivadas parciales) fluctuante en la función objetivo con respecto a los pesos. Eso hace que cosas como elegir las tasas de aprendizaje sean una pesadilla (de nuevo, si se elige cuidadosamente, podría evitar esto)
- Eso también significa más mínimos locales subóptimos, por lo que es más probable que te quedes atrapado en una zanja en algún lugar en el medio de un vecindario malo en tu múltiple.
- Elegir esas funciones sería, en el mejor de los casos, muy complicado
- Claro, podríamos parametrizar un gran espacio de funciones no lineales y esperar lo mejor, pero eso agrega una gran complejidad al modelo. Es difícil saber qué está pasando realmente dentro de una CNN profunda, por lo que será difícil saber qué espacio de funciones parametrizar. Si puede resolver eso, probablemente sea mejor usarlo como preprocesamiento. Lo hice recientemente con gran éxito.
- Sobre todo, es innecesario.
- Esto es exactamente por qué tenemos funciones de activación no lineal. Para evitar tener que calcular demasiadas operaciones no lineales
- Elija cualquier función que desee y probablemente pueda aproximarla bastante de cerca con una red convolucional. En una red profunda, sus capas anteriores se combinan para crear funciones no lineales que las capas posteriores usan como entidades. No es necesario reemplazar las operaciones lineales por operaciones no lineales porque la red ya simula operaciones no lineales.