DSSM_牛客博客

传说中的双塔模型
word hashing
效果提升主要来自于：
弱监督信息引入
word hashing
三个隐藏层
优点:
解决了LSA、LDA、Autoencoder等方法存在的一个最大的问题：字典爆炸（导致计算复杂度非常高），因为在英文单词中，词的数量可能是没有限制的，但是字母n-gram的数量通常是有限的
基于词的特征表示比较难处理新词(未登录词, out-of-vocabulary)，字母的n-gram可以有效表示，鲁棒性较强
使用有监督方法，优化语义embedding的映射问题
省去了人工的特征工程

缺点：
word hashing可能造成冲突
DSSM采用了词袋模型，损失了上下文信息
在排序中，搜索引擎的排序由多种因素决定，由于用户点击时doc的排名越靠前，点击的概率就越大，如果仅仅用点击来判断是否为正负样本，噪声比较大，难以收敛; (可以把位置因素考虑进去，靠前的正例降权，靠前的负例加权）