本节主要内容

word representation
word2vec

How to represent word?

Problems with resources like WordNet

1.Great as a resource but missing nuance
2 Missing new meanings of words

Impossible to keep up-to-date

3.Subjective
4.Requires human labor to create and adapt
5.Can’t compute accurate word similarity

Problem with words as discrete symbols(one-hot vector)

1.No natural notion of similarity for one-hot vectors
2.Vector dimension is too large

Word2vec

Word2Vec:objective function

求极大似然
For each position $t = 1, \dots, T$ , predict context words within a
window of fixed size m, given center word $w_{j}$ .
极大似然公式：
$L i k e l i h o o d = L (θ) = <munderover> \prod t = 1 T </munderover> <munder> \prod - m \leq j \leq m </munder> P (w_{t + j} ∣ w_{t}; θ)$
损失函数：
$J (θ) = - \frac{1}{T} l o g L (θ) = - \frac{1}{T} <munderover> \sum t = 1 T </munderover> <munder> \sum - m \leq j \leq m </munder> l o g P (w_{t + j} ∣ w_{t}; θ)$

如何计算 $P (w_{t + j} ∣ w_{t}; θ)$ ?

定义符号如下，

$v_{w} w h e n w i s a c e n t e r w o r d$
$u_{w} w h e n w i s a c o n t e x t w o r d$

则
$P (o ∣ c) = \frac{e x p (u_{o}^{T} v_{c})}{<munder> \sum w \in V </munder> e x p (u_{w}^{T} v_{c})}$

令 $f (θ) = l o g P (o ∣ c)$ ，求偏导

$\begin{matrix} <mstyle displaystyle="true" scriptlevel="0"> \frac{\partial f (θ)}{\partial v_{c}} </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = \frac{\partial}{\partial v_{c}} l o g \frac{e x p (u_{o}^{T} v_{c})}{<munder> \sum w \in V </munder> e x p (u_{w}^{T} v_{c})} </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = \frac{\partial}{\partial v_{c}} l o g e x p (u_{o}^{T} v_{c}) - \frac{\partial}{\partial v_{c}} l o g <munder> \sum w \in V </munder> e x p (u_{w}^{T} v_{c}) </mstyle> \end{matrix}$
前一部分
$f_{1} (θ) = \frac{\partial}{\partial v_{c}} l o g e x p (u_{o}^{T} v_{c}) = u_{o}$
后一部分
$\begin{matrix} <mstyle displaystyle="true" scriptlevel="0"> f_{2} (θ) </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = \frac{\partial}{\partial v_{c}} l o g <munder> \sum w \in V </munder> e x p (u_{w}^{T} v_{c}) </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = \frac{1}{<munder> \sum w \in V </munder> e x p (u_{w}^{T} v_{c})} <munder> \sum x \in V </munder> e x p (u_{x}^{T} v_{c}) \cdot u_{x} </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munder> \sum x \in V </munder> \frac{e x p (u_{x}^{T} v_{c})}{<munder> \sum w \in V </munder> e x p (u_{w}^{T} v_{c})} \cdot u_{x} </mstyle> \\ <mstyle displaystyle="true" scriptlevel="0"> </mstyle> & <mstyle displaystyle="true" scriptlevel="0"> = <munder> \sum x \in V </munder> P (x ∣ c) \cdot u_{x} </mstyle> \end{matrix}$
$f (θ) = f_{1} (θ) - f_{2} (θ) = u_{o} - <munder> \sum x \in V </munder> P (x ∣ c) \cdot u_{x}$
根据概率论的知识， $\sum_{x = 1}^{V} p (x ∣ c) <mover accent="true"> u_{x} ⃗ </mover>$ 正是 $<mover accent="true"> u_{o} ⃗ </mover>$ 对应的期望向量的方向，而 $\frac{\partial f}{\partial <mover accent="true"> v_{c} ⃗ </mover>}$ 这个梯度则是把当前的 $<mover accent="true"> u_{o} ⃗ </mover>$ 向其期望靠拢的话，需要的一个向量的差值，这与 $\frac{\partial f}{\partial <mover accent="true"> v_{c} ⃗ </mover>}$ 的定义刚好一致。

CS224n(winter 2019)笔记——Lecture1

Lecture1

本节主要内容

How to represent word?

Problems with resources like WordNet

Problem with words as discrete symbols(one-hot vector)

Word2vec