No hay una buena manera de especificar un núcleo complejo (más que unos pocos hiperparámetros) y ajustar todos los parámetros, excepto por la fuerza bruta
Este es un problema de optimización altamente no convexo
Por el contrario, el aprendizaje profundo parece ser al menos extremadamente convexo, cuando la red está diseñada correctamente. Este es un resultado sugerido tanto de la observación en el entrenamiento de redes profundas como de la teoría del vidrio giratorio.
Además, puede ser una idea errónea pensar que cada Kernel puede ajustarse a cada conjunto de datos. Un Kernel es solo una forma elegante de expresar un espacio de características en una base, y todos los datos son finitos. Entonces, si bien, en principio, cualquier Kernel lo hará, en la práctica, hay límites. El problema es similar a la aplicación de una Transformada de Fourier en una onda cuadrada … solo funciona en el límite infinito y con algunos trucos de análisis especiales.
- ¿Cómo se llama una matriz cuyos elementos son suma de términos finitos? ¿Hay alguna manera de invertir tales matrices?
- ¿Son necesarios los vectores, o este concepto de vector es simplemente una conveniencia para expresar cantidades físicas?
- Cómo calcular el mapa dual [matemática] \ varphi ^ * [/ matemática] de [matemática] \ varphi [/ matemática]
- ¿Es la longitud del producto cruzado de dos vectores igual al área del paralelogramo formado por ellos? ¿Cómo?
- ¿Por qué una matriz de entrada siempre se representa como una matriz de columna? Si se puede representar como una matriz de columna o fila, ¿cada uno tiene un significado diferente?