回归问题
回归分析用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量值随之发生变化。直观来说回归问题等价于函数拟合,选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。
线性回归
线性回归算法假设特征和结果满足线性关系。这就意味着可以将输入项分别乘以一些常亮,再将结果加起来得到输出。
1就是模型,2是策略。
线性回归扩展
线性回归扩展算法用简单的基函数 替换输入变量x。这样我们就把线性拟合形式扩展到了固定非线性函数的线性组合。
感悟
废话不多说,其实回归问题就是在进行数据拟合,拟合的结果不能过拟合,也不能欠拟合。
欠拟合很好理解,而为什么拟合还能拟合过呢?其实过拟合会把所有的数据都拟合的很完整,比如问题进行多项式拟合,拟合出一个7次多项式,曲线能够完美穿过任意一个数据,但是模型就太过复杂了。再比如说,过拟合了树叶,那么再判别其他树叶可能会识别不是树叶,因为样本的树叶的特征太过“计较”了。回归问题还有岭回归、拉索回归等,不特地在此说明。
聚类问题
再简单讲讲聚类问题,
其中最经典的就属K-means算法了,算法如图所示:
和K-means算法类似的如高斯混合模型,不在此赘述。