1. 项目中你用到了归一化,那么当数据有很大和很小值的时候你是怎么处理的?
  • 对数变换
  • 分桶,分箱法:考虑不同区间采用不同函数映射,就是分段函数。比如大部分在0-100区间,那么把0-100映射到0-0.9,剩下的映射到0.9-1。

    p.s. 归一化和标准化的区别:

  • 归一化: 输出范围在0-1之间,缩放仅仅跟最大、最小值的差别有关。
  • 标准化:输出范围是负无穷到正无穷,缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)
  • 如果对输出结果范围有要求,用归一化
  • 如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。
  • 数据归一化后,可以消除量纲的影响,避免梯度消失或爆炸,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解

  1. 1*1卷积核的作用?
  • 降维。比如,一张500 * 500且厚度depth为100 的图片在20个filter上做1*1的卷积,那么结果的大小为500 * 500 * 20。
  • 加入非线性。卷积层之后经过激励层,1*1的卷积在前一层的学习表示上添加了非线性激励,提升网络的表达能力;
  • 增加模型深度。可以减少网络模型参数,增加网络层深度,一定程度上提升模型的表征能力。

  1. 哈希冲突如何处理?
    http://data.biancheng.net/view/63.html
  • 链地址法
    将所有产生冲突的关键字所对应的数据全部存储在同一个线性链表中

  1. 常见的几种最优化方法(梯度下降法、牛顿法、拟牛顿法、共轭梯度法等)的区别?
  • 梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢
    图片说明
  • 牛顿法收敛速度快,每一步需要求解目标函数的海赛矩阵的逆矩阵,计算比较复杂,可通过拟牛顿法简化计算过程。
    图片说明
    图片说明
  • 拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷,它使用正定矩阵来近似Hessian矩阵的逆,从而简化了运算的复杂度
    图片说明

4.1 几种优化器的区别?

图片说明

图片说明

图片说明
图片说明


  1. word2vec窗口和负采样的参数如何设置?

图片说明

  1. 为什么交叉熵可以用在分类中?

图片说明

  1. 为什么RNN会梯度消失?

tanh激活函数的求导大于0小于1,以及序列过长会导致梯度消失。(rnn每一步共享权重?)
图片说明
https://blog.nowcoder.net/detail/bed235c53d404371969f448c38447c21


  1. LSTM和GRU的区别?

图片说明

  1. 正则化为什么能防止过拟合?讲一下l1和l2正则化?

图片说明
图片说明
https://cloud.tencent.com/developer/article/1453447


  1. 模型如何更新?

图片说明

  1. cbow与N-skipgram哪个训练速度快?

图片说明

  1. 为什么要使用lightgbm模型?
  • GBDT (Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT在工业界应用广泛,通常被用于点击率预测,搜索排序等任务。LightGBM (Light Gradient Boosting Machine)(请点击https://github.com/Microsoft/LightGBM) 是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有以下优点:
    ● 更快的训练速度
    ● 更低的内存消耗
    ● 更好的准确率
    ● 分布式支持,可以快速处理海量数据
  1. lr为什么要做特征离散化处理?

图片说明