Como señaló Ajit Rajasekharan, esto parece referirse a la estimación de contracción de ruido, probablemente en el contexto de word2vec o un modelo similar a word2vec.
Parece ser la probabilidad logarítmica de un par palabra-contexto existente más allá del ruido aleatorio en el contexto del modelo de lenguaje.
Primero necesitamos establecer qué significan las variables. No puedo estar seguro sin algún contexto, pero aquí están mis mejores conjeturas.
[math] v_ {w_o} [/ math] es un vector de palabras y [math] v_ {w_c} [/ math] un vector de contexto.
- ¿Por qué la comida de los supermercados es tan cara en los Estados Unidos frente al Reino Unido? Compré 4 magdalenas en el Reino Unido por 1GBP o aproximadamente $ 1.25; localmente, en CT, son $ 4.
- Para esta ecuación diferencial, x dy / dx = x ^ 2 + y, dado que y = 0 cuando x = 1, ¿es la respuesta c = -1?
- Cómo demostrar esta identidad desde la combinatoria
- ¿Cuál sería la ecuación tridimensional para una función f (x) girada alrededor del eje x?
- Si x, y y z son tres números naturales en AP yx + y + z = 21, entonces, ¿cuál es un posible triplete ordenado (x, y, z)?
[matemáticas] P (w) [/ matemáticas] es una distribución de probabilidad sobre el vocabulario del modelo basado en la frecuencia de los términos.
[matemática] K [/ matemática] es el número de muestras negativas.
[math] u_ {w_i} [/ math] es el vector de palabra para la palabra [math] i [/ math].
[matemáticas] \ sigma [/ matemáticas] es la función sigmoidea.
[matemáticas] \ sigma (x) = \ frac {1} {1 + e ^ {- x}} [/ matemáticas]
Ahora veamos qué significan los términos
[math] \ sigma (v_ {w_o} ^ Tv_ {w_c}) [/ math] generalmente se interpreta como la probabilidad de que el par palabra-contexto exista en el modelo de lenguaje.
¿Qué pasa con [math] \ sigma (-u_ {w_i} ^ Tw_c) [/ math]?
Bueno, [math] \ sigma (-x) = 1- \ sigma (x) [/ math], por lo que es probable que el par de palabras y contexto para la palabra [math] i [/ math] sea solo ruido y no lenguaje realmente significativo
La fórmula original fue:
[matemáticas] \ ln (\ sigma (v_ {w_o} ^ T v_ {w_c})) + \ sum ^ K_ {i = 1} \ mathbb {E} _ {i \ sim P (w)} \ left [\ ln (\ sigma (- u ^ T_ {w_i} v_ {w_c})) \ right] [/ math]
Analicemos [math] \ mathbb {E} _ {i \ sim P (w)} \ left [\ ln (\ sigma (- u ^ T_ {w_i} v_ {w_c})) \ right] [/ math] término.
[math] \ mathbb {E} _ {i \ sim P (w)} \ left [\ ln (\ sigma (- u ^ T_ {w_i} v_ {w_c})) \ right] [/ math]
[matemáticas] \ displaystyle \ sum_ {w \ en Vocab} p (w) * \ ln (\ sigma (- u ^ T_ {w} v_ {w_c})) [/ math]
Donde [math] p (w) [/ math] es solo la probabilidad de que una palabra seleccionada al azar del corpus sea [math] w [/ math].
Entonces, si toma muestras negativas [matemáticas] K [/ matemáticas] en el modelo word2vec, puede esperar que la probabilidad de registro de cada una de las personas que estén en el modelo sea ese término.
Como son eventos independientes, simplemente podemos multiplicar sus probabilidades (o agregar sus probabilidades de registro, como lo hacemos en este caso).
Así
[matemáticas] \ ln (\ sigma (v_ {w_o} ^ T v_ {w_c})) + \ sum ^ K_ {i = 1} \ mathbb {E} _ {i \ sim P (w)} \ left [\ ln (\ sigma (- u ^ T_ {w_i} v_ {w_c})) \ right] [/ math]
Es solo la probabilidad de registro de que un par palabra-contexto dado esté en el modelo dado que usó muestras negativas [matemáticas] K [/ matemáticas].
En la práctica, calcular el plazo esperado es muy costoso, por lo que imagino que se estimaría utilizando los métodos de Monte Carlo.