2.贝叶斯方法
贝叶斯方法算法是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题。常见算法包括:朴素贝叶斯算法。
贝叶斯定理:贝叶斯定理简单来说就是用先验概率和条件概率求出另外的条件概率。
应用:一个电子邮件为垃圾邮件或非垃圾邮件
条件概率公式:
图片说明
朴素贝叶斯
假设特征之前相互独立,

举例:经典的垃圾邮件过滤问题
一封垃圾邮件X,由d个单词组成,分别为图片说明 (d个特征/属性)
y=1表示是垃圾邮件,y=0表示不是,那么我们的预测过程就是求:
图片说明
图片说明
谁大,y就取谁,这样完成垃圾邮件的识别。
这个X可以是,一些邮件的关键词,例如“金钱”,通过这些词来判断是否是垃圾邮件。

算法评价(NB)
优点:
1、算法比较简单,容易解释
2、训练速度快,即便数据规模很大(训练和预测过程仅仅是特征概率的数学运算,而条件独立性假设又将复杂度大大降低)
3、在数据量相对较小,特征数相对较大时表现较好(比如文本数据)
4、支持增量式运算,即可以实时的对新增的样本进行训练。
缺点:
1、因为强加的特征的条件独立假设,所以平均预测准确度不是很高
——并不是说非得条件独立才能用NB,而是说为了解决问题而做的妥协,研究表明NB在即便特征不独立时也表现得还可以。
2、处理文本时会忽略次序、组合、二义性等问题
——搜索芝加哥公牛,出来的是芝加哥这个城市和公牛这种动物。所以有词序、有组合的文本不太适合用此算法。朴素贝叶斯并不理解文本,而只是基于词的频率作为分类的依据。