¿Cómo se relacionan las redes neuronales con las transformadas de Fourier?

Las series Taylor y Fourier son técnicas de aproximación de funciones.

La red neuronal es en sí misma una aproximación de función (aproximación de función universal).

Fuente de la imagen: Redes neuronales por Raul Rojas.

Esta imagen muestra cómo usar las series Taylor y Fourier como Neural Network.

Pero la diferencia entre la (serie de Taylor o la serie de Fourier) y las redes neuronales artificiales es …

Las redes neuronales artificiales se utilizan para aproximar una función desconocida y solo se dan valores de función en algunos puntos. La tarea es aprender la función (o aproximación) usando estos puntos dados y generalizar lo mejor que podamos mediante una técnica de aprendizaje. Los parámetros se aprenden usando una técnica iterativa como el descenso de gradiente.

Los parámetros en las series de Taylor a1, a2, a3, … se encuentran al encontrar las derivadas de enésimo orden de la función en puntos particulares. Del mismo modo, los parámetros de Fourier también se pueden encontrar evaluando la función dada. Los parámetros se calculan directamente usando la fórmula aplicada a la función real.

¿Cuál es la relación entre un algoritmo de aproximación de serie Taylor y un gradiente de descenso?

Todo lo demás es correcto, pero no creo que esté preguntando desde una perspectiva de aproximación de funciones. Creo que la respuesta que busca es en redes neuronales convolucionales (CNN). Cada capa de convolución realiza una convolución de la capa anterior con un filtro FIR cuyos pesos deben aprenderse. En el aprendizaje profundo, puede tener fácilmente docenas de filtros por capa. Sin embargo, en algunos casos esto se puede implementar de manera más eficiente utilizando la Transformada rápida de Fourier (FFT), convirtiendo las convoluciones en productos de elementos sabios en el dominio de la frecuencia de acuerdo con el teorema de convolución y aprovechando la potencia de las GPU.

Puede consultar este documento de FAIR si desea un estudio extenso: una evaluación de rendimiento de GPU

No tienen tanta relación cuando se consideran categorías de algoritmos. Uno es probabilístico y aproximado, el otro es determinista y exacto. Sin embargo, hay una forma en que podrían concebirse relacionados: ambos son holográficos. Una transformación de Fourier es holográfica porque todos los puntos en la entrada afectan a un solo punto en la salida y viceversa. Las redes neuronales en los cerebros orgánicos se han considerado holográficas porque las habilidades y los recuerdos parecen extenderse por muchas neuronas diferentes. (Lo sé, las regiones del cerebro están especializadas para ciertas cosas, pero he escuchado lo primero sobre recuerdos y conocimiento. No sé cómo conciliar los dos en este momento).

BTY: Estoy de acuerdo con el usuario de Quora en que puedes entrenar una red neuronal para aproximar una transformación de Fourier, pero es una prueba más útil de lo que un NN puede hacer que una forma práctica de hacerlo. Y es casi seguro que no será tan rápido como el FFT más optimizado. Además, para muchas aplicaciones FFT, cualquier pérdida de precisión (a partir de una implementación NN) sería desastrosa.

Es la convolución lo que se relaciona con las transformadas de Fourier y, a menudo, usamos la convolución en redes neuronales. La convolución en un dominio (generalmente pero no necesariamente en el dominio del tiempo) es equivalente a la multiplicación en el dominio de frecuencia.

La multiplicación polinómica es quizás la forma más fácil de entender la convolución.

y (x) = ax + b

g (x) = cx + d

h (x) = y (x) g (x) = (ax + b) (cx + d) = ac x ^ 2 + (ad + bc) x + bd

¡El proceso de multiplicar y (x) y g (x) se llama convolución!

Si representamos los polinomios anteriores en forma vectorial:

y [n] = hacha [n] + b

g [n] = cx [n] + d

h [n] = y [n] × g [n]

H [w] = F (y [n]) ‧ F (g [n]) = Y [w] ‧ G [w]

h [n] = F ^ -1 (H [w])

donde “×” dona convolución, “‧” dona multiplica, F significa transformada de Fourier, F ^ -1 significa transformada inversa de Fourier, “n” y “w” donan dominio de tiempo y dominio de frecuencia respectivamente.

Muy simple:

La búsqueda en red comprimida evoluciona a los controladores neuronales con un millón de pesos