机器学习 | 西瓜书学习笔记 ch06：支持向量机

支持向量机	灵活	能力强（以任意精度逼近连续函数的任意角）	数学理论坚定	全局最优解	不需要人工调参	计算开销大（相对）	领域支持陷入困难	服务科学界
神经网络	灵活	能力强	理论不清，来自认知	局部最优解	依赖人工调参	可大可小	领域支持无处不在	服务工业界

间隔(margin)：选择“正中间”，容忍性好，鲁棒性高，泛化能力最强
泛化：对未来数据的预测能力
支持向量(support vector)：距离超平面最近的几个点（正样本、负样本）
最大间隔：点到直线最短距离=1/w(斜率倒数)
$a r g <mtext> </mtext> m a x_{w, b} \frac{2}{∣ ∣ w ∣ ∣} s . t . y_{i} (w^{T} x_{i} + b) \geq 1, i = 1, 2, . . ., m . 等价于 ↓ a r g <mtext> </mtext> m i n_{w, b} \frac{1}{2} ∣ ∣ w ∣ ∣^{2} s . t . y_{i} (w^{T} x_{i} + b) \geq 1, i = 1, 2, . . ., m .$
什么是凸函数：y=x^2(二阶导数是正数)，凸优化一定有全局最优解

拉格朗日乘子法：高维函数，约束条件降为 1 个
解的稀疏性：KKT 条件
- ${\begin{matrix} <mstyle displaystyle="false" scriptlevel="0"> α_{i} \geq 0, </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> y_{i} f (x_{i}) \geq 1, </mstyle> \\ <mstyle displaystyle="false" scriptlevel="0"> α_{i} (y_{i} f (x_{i}) - 1) = 0. </mstyle> \end{matrix} 必有 α_{i} = 0 <mtext> </mtext> 或 <mtext> </mtext> y_{i} f (x_{i}) = 1$
- 确定 w，只和支持向量个数有关
mosek 工具
SMO 方法