Deep Bayes: Adaptive skip-gram

这里记录的是skip-gram模型的改进。转载请注明。
Ref：Deep Bayes slides

图片说明
$图片说明$
$图片说明$
Distributional hypothesis: similar words appear in similar contexts.
Gradient update:
$图片说明$

learns high-quality semantically rich embeddings
Sparse gradients
Very efficient parallel training

For some words only one meaning is captured.
For other meanings get uncontrollably mixed up.

Latent-variable skip-gram
图片说明
$图片说明$

observed variables: $图片说明$
Hidden variables: $图片说明$
Parameters: $图片说明$

图片说明

这篇记录了如何通过非参数先验去解决skip-gram一词一意切表达能力不足的问题，通过使用sticking process建模Dirichlet Process以及使用stochastic variational inference来解决这些问题,而且效率还行。