¿Qué tiene de especial la forma de multiplicación de matriz w’Aw en la optimización y el punto de vista del aprendizaje automático?

En términos de lo que se pretende, aquí hay algunos ejemplos de razones por las que podría terminar con dicho término:
1) En un entorno generativo o bayesiano, [math] w [/ math] podría ser una variable aleatoria con un previo. Si el anterior es un gaussiano estándar, puede terminar con [math] w ^ Tw [/ math]. Por otro lado, es posible que desee tener un previo gaussiano con una covarianza que no sea identidad, lo que le da un término [matemático] w ^ T \ Sigma ^ {- 1} w [/ matemático]. (Tal interpretación se usó, por ejemplo, en [1], donde los autores intentaron aprender un previo “estructurado” para los detectores de objetos).

2) En algunas configuraciones, es posible que desee que los valores de los diferentes componentes de [math] w [/ math] estén cercanos entre sí. En este caso, puede agregar un término a su función objetivo que se vea como [math] \ sum_ {ij} q_ {ij} (w_i-w_j) ^ 2 [/ math]. Es fácil ver que este término puede escribirse como [matemáticas] w ^ TAw [/ matemáticas] para algunas [matemáticas] A [/ matemáticas]. (Tal término de regularización se usó en [2], por ejemplo)

3) Una configuración algo relacionada es cuando realmente quieres entrenar a tu clasificador (por ejemplo) en alguna versión deformada linealmente del espacio de características original. Por ejemplo, suponga que desea transformar linealmente todos sus vectores de características [matemática] x [/ matemática] en [matemática] Bx [/ matemática], de modo que su clasificador tome la forma [matemática] w ^ TBx [/ matemática]. Al definir [matemáticas] \ tilde {w} = B ^ Tw [/ matemáticas], el clasificador es simplemente [matemáticas] \ tilde {w} ^ Tx [/ matemáticas]. Por lo tanto, aún puede trabajar en el espacio de características original, pero el término de regularización se convierte en [matemáticas] w ^ Tw = \ tilde {w} ^ TB ^ {- 1} B ^ {- T} \ tilde {w} [/ matemáticas] .

Algunas otras configuraciones en las que aparecen dichos términos están en el contexto de los gráficos.

Lineal algebraicamente, como dijo Justin Rising, [matemática] w ^ TAw [/ matemática] es simplemente una versión más general de la norma L-2 al cuadrado usual, [matemática] w ^ Tw [/ matemática]. Dependiendo de los valores propios y los vectores propios de A, dejar que w crezca en ciertas direcciones será más favorable que otras.

[1] Gao, Tianshi, Michael Stark y Daphne Koller. “¿Qué hace que un buen detector sea? – Prioridades estructuradas para aprender de pocos ejemplos”. Visión por computadora – ECCV 2012 . Springer Berlin Heidelberg, 2012. 354-367.

[2] Maji, Subhransu y Alexander C. Berg. “Clasificadores aditivos de margen máximo para la detección”. Computer Vision, 2009 IEEE 12th International Conference on . IEEE, 2009.

Si [math] A [/ math] es simétrico y positivo definido, entonces [math] w ^ TAw [/ math] es una norma de [math] w [/ math]. Cuando vea esto en una función objetivo, puede pensar que trata de minimizar el tamaño de [math] w [/ math] de una manera que pondera los diferentes componentes de manera más general que la norma 2 estándar (que en realidad es el caso especial con [matemáticas] A = I [/ matemáticas]).

Si [matemática] A [/ matemática] es positiva-semidefinida, entonces [matemática] w ^ TA w [/ matemática] puede reescribirse como [matemática] w ^ T (L ^ TL) w = (Lw) ^ T (Lw) [/ matemáticas]. Minimizar (o maximizar) [math] \ operatorname {tr} \ left [(Lw) ^ T (Lw) \ right] [/ math] es equivalente a minimizar (o maximizar) [math] \ | Lw \ | _F ^ 2 [/ math], que normalmente se conoce como “mínimos cuadrados”.

w ‘A w es también la forma matemática de un gráfico bipartate, que es muy popular entre las personas que hacen propagación de creencias