传说中的双塔模型
word hashing
效果提升主要来自于:
弱监督信息引入
word hashing
三个隐藏层
优点:
解决了LSA、LDA、Autoencoder等方法存在的一个最大的问题:字典爆炸(导致计算复杂度非常高),因为在英文单词中,词的数量可能是没有限制的,但是字母n-gram的数量通常是有限的
基于词的特征表示比较难处理新词(未登录词, out-of-vocabulary),字母的n-gram可以有效表示,鲁棒性较强
使用有监督方法,优化语义embedding的映射问题
省去了人工的特征工程

缺点:
word hashing可能造成冲突
DSSM采用了词袋模型,损失了上下文信息
在排序中,搜索引擎的排序由多种因素决定,由于用户点击时doc的排名越靠前,点击的概率就越大,如果仅仅用点击来判断是否为正负样本,噪声比较大,难以收敛; (可以把位置因素考虑进去,靠前的正例降权,靠前的负例加权)