¿Qué es una explicación intuitiva de la ecuación [matemáticas] log \ sigma (v_ {w_o} ^ T v_ {w_c}) + \ sum ^ K_ {i = 1} \ mathbb {E} _ {i \ sim P (w) } \ left [log \ sigma (- u ^ T_ {w_i} v_ {w_c}) \ right] [/ math]?

Como señaló Ajit Rajasekharan, esto parece referirse a la estimación de contracción de ruido, probablemente en el contexto de word2vec o un modelo similar a word2vec.

Parece ser la probabilidad logarítmica de un par palabra-contexto existente más allá del ruido aleatorio en el contexto del modelo de lenguaje.

Primero necesitamos establecer qué significan las variables. No puedo estar seguro sin algún contexto, pero aquí están mis mejores conjeturas.

[math] v_ {w_o} [/ math] es un vector de palabras y [math] v_ {w_c} [/ math] un vector de contexto.

[matemáticas] P (w) [/ matemáticas] es una distribución de probabilidad sobre el vocabulario del modelo basado en la frecuencia de los términos.

[matemática] K [/ matemática] es el número de muestras negativas.

[math] u_ {w_i} [/ math] es el vector de palabra para la palabra [math] i [/ math].

[matemáticas] \ sigma [/ matemáticas] es la función sigmoidea.

[matemáticas] \ sigma (x) = \ frac {1} {1 + e ^ {- x}} [/ matemáticas]

Ahora veamos qué significan los términos

[math] \ sigma (v_ {w_o} ^ Tv_ {w_c}) [/ math] generalmente se interpreta como la probabilidad de que el par palabra-contexto exista en el modelo de lenguaje.

¿Qué pasa con [math] \ sigma (-u_ {w_i} ^ Tw_c) [/ math]?

Bueno, [math] \ sigma (-x) = 1- \ sigma (x) [/ math], por lo que es probable que el par de palabras y contexto para la palabra [math] i [/ math] sea solo ruido y no lenguaje realmente significativo

La fórmula original fue:

[matemáticas] \ ln (\ sigma (v_ {w_o} ^ T v_ {w_c})) + \ sum ^ K_ {i = 1} \ mathbb {E} _ {i \ sim P (w)} \ left [\ ln (\ sigma (- u ^ T_ {w_i} v_ {w_c})) \ right] [/ math]

Analicemos [math] \ mathbb {E} _ {i \ sim P (w)} \ left [\ ln (\ sigma (- u ^ T_ {w_i} v_ {w_c})) \ right] [/ math] término.

[math] \ mathbb {E} _ {i \ sim P (w)} \ left [\ ln (\ sigma (- u ^ T_ {w_i} v_ {w_c})) \ right] [/ math]

[matemáticas] \ displaystyle \ sum_ {w \ en Vocab} p (w) * \ ln (\ sigma (- u ^ T_ {w} v_ {w_c})) [/ math]

Donde [math] p (w) [/ math] es solo la probabilidad de que una palabra seleccionada al azar del corpus sea [math] w [/ math].

Entonces, si toma muestras negativas [matemáticas] K [/ matemáticas] en el modelo word2vec, puede esperar que la probabilidad de registro de cada una de las personas que estén en el modelo sea ese término.

Como son eventos independientes, simplemente podemos multiplicar sus probabilidades (o agregar sus probabilidades de registro, como lo hacemos en este caso).

Así

[matemáticas] \ ln (\ sigma (v_ {w_o} ^ T v_ {w_c})) + \ sum ^ K_ {i = 1} \ mathbb {E} _ {i \ sim P (w)} \ left [\ ln (\ sigma (- u ^ T_ {w_i} v_ {w_c})) \ right] [/ math]

Es solo la probabilidad de registro de que un par palabra-contexto dado esté en el modelo dado que usó muestras negativas [matemáticas] K [/ matemáticas].

En la práctica, calcular el plazo esperado es muy costoso, por lo que imagino que se estimaría utilizando los métodos de Monte Carlo.

Esto es mejor respondido por alguien como Conner ( lo clavará ).

Sin algún contexto de los términos y el documento, solo una suposición descabellada (se ve muy similar a una expresión de muestreo NCE / negativa )

  • parece una expresión en la que estamos evaluando la probabilidad de registro ( no estoy seguro – paréntesis no coincidentes )
  • de un vector de palabras y su contexto junto con algunas muestras k quizás muestreadas de alguna distribución ( una distribución unigram tal vez porque el símbolo es u ).