3.1 基本形式
-
f(x)=wTx+b
其中
w=(w1;w2;...;wd) -
线性模型的缺陷:XOR(异或问题)解决不了,无法用一条线进行划分.
-
补充
-
梯度下降法
-
f(x+Δx)=f(x)+ΔxT∇f(x)
其中
ΔxT∇f(x)<0
表示方向相反 -
Δx=−γ∇f(x)
用查找法(二分法、黄金分割法或者其他算法)确定下面的值
γ
-
-
3.2 线性回归
-
最小二乘法(least square method)
(w∗,b∗)=arg minw,bi=1∑m(f(xi)−yi)2=arg minw,bi=1∑m(yi−wxi−b)2 -
闭式(closed-form)解
-
满秩讨论
-
XTX是满秩矩阵或正定矩阵,则
w∗^=(XTX)−1XTy
其中
其中(XTX)−1是XTX的逆矩阵,线性回归模型为f(xi^)=xi^T(XTX)−1XTy
正则化(参6.4节,11.4节)
XTX+εI
-
-
对数线性回归(log-linear regression)
-
lny=wTx+b
-
试图让ewTx+b逼近y
-
广义线性模型
y=g−1(wTx+b)
g(·)是"联系函数"(link function),连续且充分光滑(单调可微函数)
-
3.3 对数几率回归
-
单位阶跃函数(unit-step function):不连续,不能求梯度
-
替代函数(surrogate function)
-
对数几率函数(logistic function)
-
y=1+e−z1
-
对数几率函数是一种 “Sigmoid 函数”
-
-
极大似然法(maximum likelihood method)
-
l(w,b)=i=1∑mlnp(yi∣xi;w,b)
即令每个样本属于其真实标记的概率越大越好.
-
-
对数几率回归,实际上是一种分类学习方法,而不是回归
3.4 线性判别分析(Fisher 判别分析)
-
LDA 的思想
- 欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小
- 欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大
-
类内散度矩阵(within-class scatter matrix)
- Sw=∑0+∑1=x∈X0∑(x−μ0)(x−μ0)T+x∈X1∑(x−μ1)(x−μ1)T
-
类间散度矩阵(between-class scatter matrix)
- Sb=(μ0−μ1)(μ0−μ1)T
-
补充
- 拉格朗日乘子法(待填坑)
-
矩阵 * 矩阵,秩向低的靠齐
3.5 多分类学习
- OvO:一对一
- OvR:一对其余
- MvM:多对多
- N 个类,秩 <= N-1,因为最后一个没有自由度
- 两种策略比较
- 一对一
- 训练 N(N-1)/2 个分类器,存储开销和测试时间大
- 训练只用两个类的样例,训练时间短
- 一对其余
- 训练 N 个分类器,存储开销和测试时间小
- 训练用到全部训练样例,训练时间长
- 预测性能取决于具体数据分布
- 一对一
- 编码矩阵(coding matrix)
3.6 类别不平衡问题(class imbalance)
-
类别不平衡
- 不同类别训练样例数相差很大情况(正类为小类)
-
再缩放
- 欠采样(undersampling)
- 取出一些反例,使正反例数目接近
- 过采样(oversampling)
- 增加一些正例,使正反例数目接近
- 阈值移动(threshold-moving)
- 欠采样(undersampling)