¿Por qué no usamos simplemente núcleos no lineales, incluso en conjuntos de datos separables linealmente?

No hay una buena manera de especificar un núcleo complejo (más que unos pocos hiperparámetros) y ajustar todos los parámetros, excepto por la fuerza bruta

Este es un problema de optimización altamente no convexo

Por el contrario, el aprendizaje profundo parece ser al menos extremadamente convexo, cuando la red está diseñada correctamente. Este es un resultado sugerido tanto de la observación en el entrenamiento de redes profundas como de la teoría del vidrio giratorio.

Además, puede ser una idea errónea pensar que cada Kernel puede ajustarse a cada conjunto de datos. Un Kernel es solo una forma elegante de expresar un espacio de características en una base, y todos los datos son finitos. Entonces, si bien, en principio, cualquier Kernel lo hará, en la práctica, hay límites. El problema es similar a la aplicación de una Transformada de Fourier en una onda cuadrada … solo funciona en el límite infinito y con algunos trucos de análisis especiales.

La respuesta es muy simple: corremos el riesgo de sobreajustar.

Pero, en general, tiene razón: restringir los algoritmos a algún tipo de comportamiento (lo que reduce su grado de libertad) a menudo invoca supuestos improbables. En otras palabras, ningún límite de decisión es exactamente lineal y esto debe cumplirse.