3.1 基本形式

  • f ( x ) = w T x + b f(x) = w^Tx+b f(x)=wTx+b

    其中
    w = ( w 1 ; w 2 ; . . . ; w d ) w = (w_1;w_2;...;w_d) w=(w1;w2;...;wd)

  • 线性模型的缺陷:XOR(异或问题)解决不了,无法用一条线进行划分.

  • 补充

    • 梯度下降法

      • f ( x + Δ x ) = f ( x ) + Δ x T f ( x ) f(x+\Delta x)= f(x)+\Delta x^T\nabla f(x) f(x+Δx)=f(x)+ΔxTf(x)

        其中
        Δ x T f ( x ) &lt; 0 \Delta x^T\nabla f(x)&lt;0 ΔxTf(x)<0
        表示方向相反

      • Δ x = γ f ( x ) \Delta x = -\gamma \nabla f(x) Δx=γf(x)

        用查找法(二分法、黄金分割法或者其他算法)确定下面的值

      γ \gamma γ

3.2 线性回归

  • 最小二乘法(least square method)
    ( w , b ) = a r g <mtext>   </mtext> m i n w , b <munderover> i = 1 m </munderover> ( f ( x i ) y i ) 2 = a r g <mtext>   </mtext> m i n w , b <munderover> i = 1 m </munderover> ( y i w x i b ) 2 (w^*,b^*) = arg\ min_{w,b}\sum_{i=1}^{m}(f(x_i)-y_i)^2 = arg\ min_{w,b}\sum_{i=1}^{m}(y_i-wx_i-b)^2 (w,b)=arg minw,bi=1m(f(xi)yi)2=arg minw,bi=1m(yiwxib)2

  • 闭式(closed-form)解

  • 满秩讨论

    • X T X X^TX 是满秩矩阵或正定矩阵,则 XTX

      <mover accent="true"> w ^ </mover> = ( X T X ) 1 X T y \hat{w^*}=(X^TX)^{-1}X^Ty w^=(XTX)1XTy

      其中
      ( X T X ) 1 X T X 线 其中(X^TX)^{-1}是X^TX的逆矩阵,线性回归模型为 (XTX)1XTX线

      f ( <mover accent="true"> x i ^ </mover> ) = <mover accent="true"> x i ^ </mover> T ( X T X ) 1 X T y f(\hat{x_i}) = \hat{x_i}^T(X^TX)^{-1}X^Ty f(xi^)=xi^T(XTX)1XTy

      正则化(参6.4节,11.4节)
      X T X + ε I X^TX+\varepsilon I XTX+εI

  • 对数线性回归(log-linear regression)

    • ln y = w T x + b \ln y=w^Tx+b lny=wTx+b

    • e w T x + b y 试图让e^{w^Tx+b}逼近y ewTx+by

    • 广义线性模型
      y = g 1 ( w T x + b ) y=g^{-1}(w^Tx+b) y=g1(wTx+b)
      g(·)是"联系函数"(link function),连续且充分光滑(单调可微函数)

3.3 对数几率回归

  • 单位阶跃函数(unit-step function):不连续,不能求梯度

  • 替代函数(surrogate function)

  • 对数几率函数(logistic function)

    • y = 1 1 + e z y=\frac{1}{1+e^{-z}} y=1+ez1

    • 对数几率函数是一种 “Sigmoid 函数”

  • 极大似然法(maximum likelihood method)

    • l ( w , b ) = <munderover> i = 1 m </munderover> ln p ( y i x i ; w , b ) l(w,b) = \sum_{i=1}^{m}\ln p(y_i \mid x_i;w,b) l(w,b)=i=1mlnp(yixi;w,b)

      即令每个样本属于其真实标记的概率越大越好.

  • 对数几率回归,实际上是一种分类学习方法,而不是回归

3.4 线性判别分析(Fisher 判别分析)

  • LDA 的思想

    • 欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小
    • 欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大
  • 类内散度矩阵(within-class scatter matrix)

    • S w = 0 + 1 = <munder> x X 0 </munder> ( x μ 0 ) ( x μ 0 ) T + <munder> x X 1 </munder> ( x μ 1 ) ( x μ 1 ) T S_w=\sum {_0}+\sum {_1} = \sum_{x\in X_0}(x-\mu _0)(x-\mu _0)^T + \sum_{x\in X_1}(x-\mu _1)(x-\mu _1)^T Sw=0+1=xX0(xμ0)(xμ0)T+xX1(xμ1)(xμ1)T
  • 类间散度矩阵(between-class scatter matrix)

    • S b = ( μ 0 μ 1 ) ( μ 0 μ 1 ) T S_b = (\mu _0 - \mu _1)(\mu _0 - \mu _1)^T Sb=(μ0μ1)(μ0μ1)T
  • 补充

    • 拉格朗日乘子法(待填坑)
  • 矩阵 * 矩阵,秩向低的靠齐

3.5 多分类学习

  • OvO:一对一
  • OvR:一对其余
  • MvM:多对多
  • N 个类,秩 <= N-1,因为最后一个没有自由度
  • 两种策略比较
    • 一对一
      • 训练 N(N-1)/2 个分类器,存储开销和测试时间大
      • 训练只用两个类的样例,训练时间短
    • 一对其余
      • 训练 N 个分类器,存储开销和测试时间小
      • 训练用到全部训练样例,训练时间长
    • 预测性能取决于具体数据分布
  • 编码矩阵(coding matrix)

3.6 类别不平衡问题(class imbalance)

  • 类别不平衡

    • 不同类别训练样例数相差很大情况(正类为小类)
  • 再缩放

    • 欠采样(undersampling)
      • 取出一些反例,使正反例数目接近
    • 过采样(oversampling)
      • 增加一些正例,使正反例数目接近
    • 阈值移动(threshold-moving)