¿Por qué no usamos simplemente núcleos no lineales, incluso en conjuntos de datos separables linealmente?

No hay una buena manera de especificar un núcleo complejo (más que unos pocos hiperparámetros) y ajustar todos los parámetros, excepto por la fuerza bruta

Este es un problema de optimización altamente no convexo

Por el contrario, el aprendizaje profundo parece ser al menos extremadamente convexo, cuando la red está diseñada correctamente. Este es un resultado sugerido tanto de la observación en el entrenamiento de redes profundas como de la teoría del vidrio giratorio.

Además, puede ser una idea errónea pensar que cada Kernel puede ajustarse a cada conjunto de datos. Un Kernel es solo una forma elegante de expresar un espacio de características en una base, y todos los datos son finitos. Entonces, si bien, en principio, cualquier Kernel lo hará, en la práctica, hay límites. El problema es similar a la aplicación de una Transformada de Fourier en una onda cuadrada … solo funciona en el límite infinito y con algunos trucos de análisis especiales.

Related Content

¿Dónde puedo descargar Introducción a Álgebra de Richard Rusczyk de forma gratuita?

¿Cuándo deberías comenzar a aprender álgebra?

¿Cuáles son las principales diferencias entre aritmética y álgebra?

¿De qué sirve calcular determinantes?

¿Necesita saber álgebra lineal para el análisis de Fourier?

¿Cómo se llama una matriz cuyos elementos son suma de términos finitos? ¿Hay alguna manera de invertir tales matrices?

Cómo demostrar que cualquier matriz cuadrada no singular puede factorizarse en una matriz triangular y una matriz simétrica

La respuesta es muy simple: corremos el riesgo de sobreajustar.

Pero, en general, tiene razón: restringir los algoritmos a algún tipo de comportamiento (lo que reduce su grado de libertad) a menudo invoca supuestos improbables. En otras palabras, ningún límite de decisión es exactamente lineal y esto debe cumplirse.

Charles H Martin

More Interesting

¿Cuál es el propósito de una transformación afín?

La matriz H es simétrica positiva definida. La matriz A = DH también es simétrica positiva definida. ¿Cuál debería ser la matriz D?

Mientras deriva la transformación de Lorentz, ¿cómo sabe que la transformación será lineal?

¿Cuál es el valor de (A vector + B vector)? (punto) (A vector Cross B vector)?

¿Qué es un vector resultante?

¿Existe un conjunto finito de matrices que están cerradas bajo la suma de matrices y la multiplicación de matrices?

Cuando declaras una matriz en C, ¿por qué la matriz y la matriz * regresan a la misma dirección? ¿Por qué no sucede esto cuando asigna la matriz?

¿Es [1] una matriz escalar, diagonal, diagonal principal o de identidad?

¿Qué tan importante es revisar las matemáticas de la escuela secundaria antes del álgebra lineal y el cálculo universitario?

¿Por qué si un sistema está subdeterminado, el pseudo-inverso devuelve la solución de norma mínima?

Web Analytics Made Easy -
StatCounter