NLP中的概率图模型

贝叶斯公式，用来描述两个条件概率之间的关系。
朴素贝叶斯，加了一个朴素，就是说，各个特征之间是独立的，有时候数据不一定完全相互独立，所以会损失一定的准确率。
图片说明

处理文本

one-hot编码：
是目前为止常用的词表示方法，先有一个词库，每个词对应一个onehot编码，也就是说每个词都是茫茫0海中1。
TF-IDE：
（TF）term-frequency 词频
（IDF）inverse document frequency 逆文档频率
图片说明

图片说明

统计语言模型与NLP算法设计

贝叶斯网络

图片说明

HMM是隐含马尔科夫模型有两种变量，一个是状态变量（s）一个是观测变量（o）。
状态序列一般是隐藏的
马尔科夫链：
HMM的定义建立在两个假设上：1.假设隐藏的马尔科夫链在任意时刻的状态只依赖于前一个时刻的状态，与其他时刻的状态及观测无关。与时刻t也无关。
2.假设任意时刻的观测只依赖于该时刻的马尔科夫链状态，与其他的观测及状态无关。

一个隐含马尔科夫模型包括：状态空间S，观测空间O，以及参数λ={A，B，π}

HMM常用于预测问题：前向算法，维特比算法（用的比较多）
前向算法用于预测：求联合概率，前向算法做加和处理。最后乘转移概率
维特比算法：在计算状态转移概率时取最大处理。最后乘转移概率
隐含马尔科夫模型：
马尔科夫链：是HMM里边的第二个M，
有向图模型（贝叶斯网络）：用有向图表示变量间的依赖关系
无向图模型（马尔科夫网）：用无向图表示变量间的相关关系
HMM是最简单的动态贝叶斯网络，对变量序列建模的一种贝叶斯网络。

HMM定义：是一个关于时序的概率模型，有两组变量分别是状态变量和观测变量
状态变量{s1，s2，....sr},其中st属于S，表示t时刻的状态系统
观测变量{o1，o2，....or}，其中ot表示O，表示t时刻的观测值

状态变量和观测标量各自是一个时间序列，每一个状态/观测值都和一个时刻对应。
图片说明

状态变量一般是隐藏的，不能被观测到，属于隐变量
HMM基本假设：第一个是齐次马尔科夫假设，观测独立性假设

HMM的两个空间和三个变量：
两个空间就是观测空间和状态空间

三组参数:

初始状态概率（一开始是知道的），模型初始时刻各个状态出记作π=（π1,π2,π3,...,πN）

所有的π加和是1，

状态转移概率，各个模型之间转移的概率记作A={a_ij},是一个N*N的矩阵

a_ij=P（s_t+1 = S_j | s_t = S_i）

输出观测概率：也叫发射概率，模型根据当前的状态获得各个观测值的概率，通常记作B = {b_ij} ，是一个N*M的矩阵,观测值可能有M的结果。

其中bij = P{o_t = o_j | s_t = S_i}

记λ = [A，B，π]

HMM的概率计算问题，即P（O | λ），一般用前向算法。

求解目标：计算在给定模型λ下，已知观测序列O出现的概率。

也就是说，给定观测序列，求它和评估模型之间的匹配度

简单来说，知道了一组O的序列，求出现这种序列的最有可能的概率。

预测问题（这个用的比较多）

已知信息：λ，观测序列{o₁,o₂,o₃,....,o_r}

求解目标：计算在给定信息下，使已知的观测序列O的条件概率P（O | S）最大的状态序列{s₁,s₂,...,s_r}

简单来说，即给定观测序列，求最有可能与之对应的状态序列。

前向算法，就是在已知模型λ的前提下，求看到的观测序列出现的概率。前向算法是不断迭代的，往前走不回头，所以叫前向算法，

前向算法和维特比算法都是动态规划算法的一种，动态规划是一种思想，演变出很多算法。

维特比算法

做预测问题：

已知λ模型和观测序列

预测最有可能的对应的状态转移序列

命名实体识别

BiLSTM-CRF算法，其中BiLSTM和CRF分别是NER模型中不同的层

CRF是判别式模型，

在CRF层的损失函数中，我们有两种类型的分数。这两分数是CRF层的关键。

第一个分数是Emission score，来自于BiLSTM层

另一个分数是Transition score，是词语间联系性相关的分数