En términos de lo que se pretende, aquí hay algunos ejemplos de razones por las que podría terminar con dicho término:
1) En un entorno generativo o bayesiano, [math] w [/ math] podría ser una variable aleatoria con un previo. Si el anterior es un gaussiano estándar, puede terminar con [math] w ^ Tw [/ math]. Por otro lado, es posible que desee tener un previo gaussiano con una covarianza que no sea identidad, lo que le da un término [matemático] w ^ T \ Sigma ^ {- 1} w [/ matemático]. (Tal interpretación se usó, por ejemplo, en [1], donde los autores intentaron aprender un previo “estructurado” para los detectores de objetos).
2) En algunas configuraciones, es posible que desee que los valores de los diferentes componentes de [math] w [/ math] estén cercanos entre sí. En este caso, puede agregar un término a su función objetivo que se vea como [math] \ sum_ {ij} q_ {ij} (w_i-w_j) ^ 2 [/ math]. Es fácil ver que este término puede escribirse como [matemáticas] w ^ TAw [/ matemáticas] para algunas [matemáticas] A [/ matemáticas]. (Tal término de regularización se usó en [2], por ejemplo)
3) Una configuración algo relacionada es cuando realmente quieres entrenar a tu clasificador (por ejemplo) en alguna versión deformada linealmente del espacio de características original. Por ejemplo, suponga que desea transformar linealmente todos sus vectores de características [matemática] x [/ matemática] en [matemática] Bx [/ matemática], de modo que su clasificador tome la forma [matemática] w ^ TBx [/ matemática]. Al definir [matemáticas] \ tilde {w} = B ^ Tw [/ matemáticas], el clasificador es simplemente [matemáticas] \ tilde {w} ^ Tx [/ matemáticas]. Por lo tanto, aún puede trabajar en el espacio de características original, pero el término de regularización se convierte en [matemáticas] w ^ Tw = \ tilde {w} ^ TB ^ {- 1} B ^ {- T} \ tilde {w} [/ matemáticas] .
Algunas otras configuraciones en las que aparecen dichos términos están en el contexto de los gráficos.
- Si pensara que el álgebra lineal (18.06) era una clase profunda, ¿qué otras clases de matemáticas encontraré inmediatamente agradables en el MIT?
- ¿Por qué está bien definida la dimensión de un espacio vectorial? ¿Cómo sé que todas esas bases deben tener el mismo número de elementos?
- Álgebra lineal: ¿Cuál es la motivación detrás de la definición del complemento Schur de una matriz?
- ¿Qué conceptos de álgebra lineal debería dominar uno para ser un buen científico de datos? ¿Qué recursos proporcionan una lista completa de conceptos de álgebra lineal utilizados para el aprendizaje automático?
- ¿Cuáles son las ventajas de la notación de brackets de Dirac?
Lineal algebraicamente, como dijo Justin Rising, [matemática] w ^ TAw [/ matemática] es simplemente una versión más general de la norma L-2 al cuadrado usual, [matemática] w ^ Tw [/ matemática]. Dependiendo de los valores propios y los vectores propios de A, dejar que w crezca en ciertas direcciones será más favorable que otras.
[1] Gao, Tianshi, Michael Stark y Daphne Koller. “¿Qué hace que un buen detector sea? – Prioridades estructuradas para aprender de pocos ejemplos”. Visión por computadora – ECCV 2012 . Springer Berlin Heidelberg, 2012. 354-367.
[2] Maji, Subhransu y Alexander C. Berg. “Clasificadores aditivos de margen máximo para la detección”. Computer Vision, 2009 IEEE 12th International Conference on . IEEE, 2009.