不得不学的统计学基础知识（二）

接上一期的分享，今天继续学习统计学的相关知识，今天涉及到的五个知识点主要包括离散型概率分布、连续型概率分布、假设检验、假设检验的运用（一类错误与二类错误）以及相关、因果以及回归关系。

一、离散型概率分布

离散型随机变量是所有取值能够一一列举出来，这样的随机变量称为离散型随机变量。例如掷骰子试验，朝上的点数只能从1，2，3，4，5，6中取值。而关于离散型随机变量的分布就是离散型概率分布，离散型概率分布主要包括三类，几何分布；二项分布以及泊松分布。下表汇总了这三类离散型概率分布的部分计算公式。

1. 几何分布

（1）定义

伯努利试验是只有两种可能结果的单次随机试验。伯努利试验都可以表达为“是或否”的问题。例如，抛一次硬币，是否正面向上？在n次伯努利试验中，第k次试验才得到第一次成功的概率分布称为几何分布。

（2）条件

进行一系列相互独立试验。

每一次试验都存在成功和失败的可能，且每次可能性都相同。

想得到的结果是，为了取得第一次成功所需要进行多少次试验。

（3）表示

X∼Geo(p)

（4）概率计算公式

第r次试验取得成功的概率：P(X=r)=pq^r⁻¹

需要r次以上才能获得第一个成功的概率：P(X>r)=q^r

需要试验r次或不到r次即可取得第一次成功的概率：P(X<=r)=1−q^r

期望：E(X)=1/p

方差：Var(X)=q/p²

2. 二项式分布

（1）定义

如果试验E是一个伯努利试验，将E独立重复地进行n次，则称这一串重复的独立试验为n重伯努利试验。二项分布是n重伯努利试验成功次数的离散概率分布。

（2）条件

进行一系列独立试验。

每一次试验都存在成功和失败的可能，且每次成功概率相同。

试验次数有限。

（3）与几何分布的不同之处

几何分布感兴趣的是取得第一次成功所需要进行多少次试验。

二项式分布感兴趣的是获得成功的次数。

（4）表示

X∼B(n,p)

在n次试验中，取得r次成功的概率为：

（5）计算公式

期望：E(X)=np

方差：Var(X)=npq

3. 泊松分布

（1）定义

泊松分布描述单位时间/面积内，随机事件发生的次数，比如某一服务设施一定时间内到达的人数，一个月内机器损坏的次数等。

（2）条件

单独时间在给定区间内随机、独立地发生，给定区间可以是时间或空间。

一直该区间内的时间平均发生的次数（或者叫做发生率），且为有限数值。该时间平均发生次数通常用希腊字母λ表示。

（3）表示

X∼Po(λ)

给定区间内发生r次时间的概率是：

（4）计算公式

期望：E(X)=λ

方差：Var(X)=λ

二、连续型概率分布

随机变量的取值是某一个区间中的任意一点，这样的随机变量称为连续型随机变量，比如公交车每15分钟一班，某人在站台等车的时间x就是一个连续型随机变量。连续型随机变量的概率分布叫做连续型概率分布。

1. 正态分布

正态分布是统计学中常见的一种分布，如学生考试成绩的人数分布等，表现为两边对称，是一种钟形的概率分布。正态分布的概率密度函数为：

正态分布的期望是：

方差是：

μ=0且δ=1的正态分布，被称为标准正态分布。它有对应的标准正态分布表，通过该表可以找到对应值累积的概率。

正态分布转化为标准正态分布：正态分布X，均值是μ，标准差是δ,z定义为。

正态分布的重要应用，我们在前一期中提过的3δ原则。

正态分布来近似二项分布：当n足够大的时候，正态分布对于离散型二项分布能够很好地近似。

评价正态分布：

（1）图形：建立直方图或者枝干图，看图像的形状是否类似正态曲线，即土墩形或者钟形，并且两端对称。

（2）计算区间(μ-δ,μ+δ)，(μ-2δ,μ+2δ)，(μ-3δ,μ+3δ)，看落在区间内的百分比是否近似于68%，95%，100%。（3δ原则）

（3）求IQR和标准差δ，计算IQR/δ，如果是正态分布，则IQR/δ≈1.3

（4）建立正态概率图，如果近似正态分布，点会落在一条直线上。

1. 均匀分布

均匀分布是指连续型随机变量所有可能出现值的出现概率都相同。其概率密度函数为：

均匀分布的期望为：

方差为：

均匀分布在自然情况下比较少见，而人工栽种的有一定株行距的植物群落即是均匀分布。这表明X落在 [a,b] 的子区间内的概率只与子区间长度有关，和子区间位置无关，因此X落在 [a,b] 的长度相等的子区间内的可能性是相等的，所谓的均匀指的就是这种等可能性。

1. 指数分布

指数分布通常用来表示随机事件发生的时间间隔，如旅客进机场的时间间隔、电子产品的寿命分布等。

指数分布的特征：无记忆性。比如灯泡的使用寿命服从指数分布，无论它已经使用了多长时间，假设为s，只要还没有损坏，它能再使用一段时间t的概率与一件新产品使用时间t的概率是一样的。这个证明过程简单表示：

P(s+t|s) = P(s+t,s)/P(s) = F（s+t）/F（s）=P(t)

指数分布的概率密度函数为：

指数分布的期望为：

方差为：

三、苦苦分不清的假设检验

假设检验包括t检验、z检验、F检验、卡方检验、方差齐性检验等，这么多的假设检验，好混乱啊，下面总结的资料帮助你理解这么多类型的假设检验。

（1）什么是假设检验

假设检验是指预先对总体参数的取值做出假定，然后用样本数据来验证，从而做出是接受还是拒绝的结论。

（2）假设检验的思考逻辑

基本思路是：问题是什么？证据是什么？判断依据是什么？做出结论。

基本步骤：

1)、提出原假设和备择假设

2)、确定适当的检验统计量

3)、规定显著水平@，查出临界值，确定拒绝域和接受域

4)、计算检验统计量的值，做出统计决策。

假设检验的类型

其中假设检验的种类包括：T检验，Z检验，卡方检验，F检验，ANOVA （方差分析）等等。

1）方差分析

又称“ 变异数分析”，是R.A.Fisher发明的，要求比较的资料服从正态分布，用于两个及两个以上样本均数差别的显著性检验。方差分析可以用于两样本及以上样本之间的比较。

方差分析主要用途：

① 均数差别的显著性检验，

② 分离各有关因素并估计其对总变异的作用，

③ 分析因素间的交互作用，

④ 方差齐性检验。

2）T检验

T检验主要用于样本含量较小（例如n<30），要求比较的资料服从正态分布，总体标准差σ未知的正态分布资料。t检验只能用于两样本均数及样本均数与总体均数之间的比较。t检验可用于比较男女身高是否存在差别。

3）Z检验

Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来判断差异发生的概率，从而比较两个平均数>平均数的差异是否显著。

4）F检验

F检验又叫方差齐性检验。在两样本t检验中要用到F检验。

从两研究总体中随机抽取样本，要对这两个样本进行比较的时候：

① 首先要判断两总体方差是否相同，即方差齐性。

② 若两总体方差相等，则直接用t检验；

③ 若不等，可采用t'检验或变量变换或秩和检验等方法。

其中要判断两总体方差是否相等，就可以用F检验。简单的说就是检验两个样本的方差是否有显著性差异，这是选择何种T检验（等方差双样本检验，异方差双样本检验）的前提条件。

T检验与 F检验的差异：T检验用来检测数据的准确度--系统误差；F检验用来检测数据的精密度偶然误差。

5）卡方检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越小；反之，二者偏差越大，若两个值完全相等时，卡方值就为0，表明理论值完全符合。其中卡方检验针对分类变量。

卡方检验就是检验两个变量之间有没有关系。以运营为例:卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别；不同城市级别的消费者对买SUV车有没有什么区别；如果有显著区别的话，我们会考虑把这些变量放到模型或者分析里去。

上面讲了五种统计中的假设检验，说完之后，还是苦苦分不清，一张图告诉你它们之间的区别和联系。

四、假设检验的运用（一类错误与二类错误）

1.假设检验

（1）目标：判断一个假设是否可信。

（2）假设检验：做出假设或断言，对照证据进行检验。

（3）步骤：

1）确定要进行检验的假设。

2）选择检验统计量。

3）确定用于做出决策的拒绝域。

4）求出检验统计量的p值。

5）查看样本结果是否位于拒绝域内。

6）做出决策。

2.详细过程

（1）确定假设

所需要检验的断言被成为原假设。

与原假设对立的被成为备择假设。

原假设与备择假设不用覆盖所有可能。

（2）选择检验统计量

检验统计量：用于对假设进行检验的统计量，是与该检验关系最为密切的统计量。

（3）确定拒绝域

拒绝域：一组数值，给出反驳元假设的最极端证据。

为求拒绝域，先定显著性水平，即所度量的一种愿望，希望在样本结果不可能程度达到多大时，就拒绝原假设，一般选择5%或1%。

检验分类：

单尾检验：检验的拒绝域在可能的数据集的一侧。

双尾检验：拒绝域一分为二位于数据集的两侧。

（4）求出p值

定义：某个小于或等于拒绝域方向上的一个样本数值的概率。

为取得样本中的各种结果或取得拒绝域方向上的某些更为极端的结果的概率。

（5）样本结果位于拒绝域中吗。

做出决策。

3.第一类错误与第二类错误

（1）即使证据很有力，也无法确定断言是错误的。

（2）假设检验可能出现的错误有两种：

第一类错误：错误地拒绝真实假设。

P(第一类错误)=α，其中α为假设的显著性水平。

第二类错误：错误地接受假的原假设。

P(第二类错误)=β

计算过程：检查是否拥有H1的特定数值，求检验拒绝域以外的数值范围，假定H1为真，求得到这些数值的概率。

功效：在H0为假的情况下，拒绝H0的概率。

功效=1−β

4.错误概率的计算

（1）第一类错误概率：显著水平

发生了第一类错误，则我们拒绝了原假设，即原假设的发生概率落于拒绝域内。

故而发生第一类错误的概率，等于原假设落于拒绝域内的概率，等于显著水平alpha。

P(第一类错误) =alpha

（2）第二类错误概率

第二类错误概率，则原假设错误情况下，接受原假设的概率。

即备择假设正确的情况下，接受原假设的条件概率。

PS: 要计算第二类错误概率，必须拥有备择假设H_1的具体数值，否则无法计算。因为需要根据备择假设构建新的置信区间。

计算步骤如下：

1）我们接受了原假设：根据原假设的置信区间，确定接受原假设时，检验统计量X所需要的取值范围

2）备择假设正确：根据备择假设，得到新的概率分布

3）根据概率分布，得到X取值范围的发生概率，即为第二类错误概率。

五、相关、回归和因果关系

相关表示两个变量之间存在关联，但并不是因果关系。回归分析是根据相关关系的具体形态，选择一个合适的数学模型，来近似表达变量间的平均变化关系。回归分析可是看做是相关关系的具体实现。

1.相关性

客观现象的相关关系有不同得分类标准，两个变量之间的关系可以用散点图来表示，进而可以对两个变量之间的关系作出判断。

（1）相关的类型：

正相关:两个变量同时增加(或减小)。

负相关:两个变量变化的趋势相反,一个变量增加而另一个变量减小。

不相关:两个变量间没有明显的(线性)关系。

非线性关系:两个变量有关联,但是以散点图呈现的相关关系不是直线形状。

（2）相关类型散点图

（3）相关系数r的性质：

1)相关系数工用于测量相关性的强度,它的取值范围是-1~1

2)如果不相关,点的分布就不会以直线模式上升或下降的值接近于0

3)如果是正相关,相关系数就是正数(0<r≤1):两个变量一同增加。完全正相关(所有的点在散点图中呈现一条上升的直线)的相关系数r=1。r的值接近1表明是强正相关,r的值接近0表明是弱正相关

4)如果是负相关,相关系数就是负数(-1≤r<0):一个变量上升,另一个变量下降。完全负相关(所有的点在散点图中呈现一条下降的直线)的相关系数r=-1。r的值接近-1表明是强负相关,r的值接近0表明是弱负相关。

公式：

正相关是正数、负相关是负数、不相关趋近于零。

（4）相关的可能解释

相关是偶然的。

两个相关变量可能直接受到一些潜在因素的影响。

一个变量是另一个变量的原因。但是要注意,即便如此,它也许只是众多原因中的一。

2.回归

回归分析是根据相关关系的具体形态，选择一个合适的数学模型，来近似表达变量间的平均变化关系。回归分析可是看做是相关关系的具体实现。

（1）一元线性回归模型

一元线性回归描述因变量如何依赖自变量和误差项的方程称为回归模型。可以表示为：Y＝β₀＋β₁X＋ε式中，β₀，β₁为模型的参数。

（2）最小二乘法

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。

（3）回归模型的拟合效果分析

使用估计的回归方程之前，需要对模型进行检验：

1）.结合经济理论和经验分析回归系数的经济含义是否合理；

2）.分析估计的模型对数据的拟合效果如何；

3）.对模型进行假设检验。

3.相关与回归和区别和联系

（1）回归分析与相关分析的区别：

　1）相关分析所研究的两个变量是对等关系，回归分析所研究的两个变量不是对等关系，必须根据研究目的确定其中的自变量、因变量。

　2）对于变量x与y来说，相关分析只能计算出一个反映两个变量间相关密切程度的相关系数，计算中改变x和y的地位不影响相关系数的数值。回归分析有时可以根据研究目的不同分别建立两个不同的回归方程。

　3）相关分析对资料的要求是，两个变量都是随机的，也可以是一个变量是随机的，另一个变量是非随机的。而回归分析对资料的要求是，自变量是可以控制的变量（给定的变量），因变量是随机变量。

（2）回归分析与相关分析的联系：　　

1）相关分析是回归分析的基础和前提。假若对所研究的客观现象不进行相关分析，直接作回归分析，则这样建立的回归方程往往没有实际意义。只有通过相关分析，确定客观现象之间确实存在数量上的依存关系，而且其关系值又不确定的条件下，再进行回归分析，在此基础上建立回归方程才有实际意义。　　

2）回归分析是相关分析的深入和继续。对所研究现象只作相关分析，仅说明现象之间具有密切的相关关系是不够的，统计上研究现象之间具有相关关系的目的，就是要通过回归分析，将具有依存关系的变量间的不确定的数量关系加以确定，然后由已知自变量值推算未知因变量的值，只有这样，相关分析才具有实际意义。

4.因果关系

（1）建立因果关系的指导原则

如果你怀疑某一特定的变量(被怀疑的原因)对其他变量产生了一些影响:

1）寻找对被怀疑变量产生影响的那些变量,此时我们并不关心其他因素变化与否。

2）在被怀疑变量存在或剔除后有不同变化的变量中,核实被怀疑的变量剔除与否对这些变量的影响是否相同。

3）寻找大量的被怀疑变量产生众多影响的证据。

4）如果影响由其他潜在的原因引起(你怀疑之外的原因),确保在解释了其他潜在的原因之后,影响依然存在。

5）如有可能,通过实验研究测试被怀疑的原因。如果由于道德原因实验不能够模拟的话,考虑用动物、细胞培养物或计算机模型进行实验。

6）试判断由被怀疑变量产生影响的物理机制

（2）因果关系的置信水平

1）可能的原因：我们已经讨论了相关性,但是不能确定相关性之中是否蕴含着因果关系。在法律体系中,可能的原因(例如认为一个嫌疑人可能犯罪了)经常成为开始一项调查的原因。

2）合理的根据：我们有足够的理由去怀疑相关包含因果关系,可能是因为符合一些建立因果关系的原则。在法律体系中,合理的根据会成为法官批准逮捕令或合法窃听的一般标准

3）排除合理怀疑：我们已经找到合理解释一件事情影响另一件事情的实体模型,怀疑这个因果关系是不合理的。在法律体系中,排除合理怀疑是定罪的一般标准,并且要在陈述中展示嫌疑人是如何以及为什么犯罪。排除合理怀疑并不意味着排除一切怀疑。

参考链接

[ 小野仙踪 ] 的《概率论与统计学：离散型和连续型随机变量的概率分布》， https://zhuanlan.zhihu.com/p/38224194 。

[想吃麻辣烫啦]关于《关于假设检验，T检验 F检验卡方检验和 ANOVA 这些检验在什么情况下使用，它们的区别是什么？》的回答，https://www.zhihu.com/question/309884517/answer/579315142

[郑大哲]关于《关于假设检验，T检验 F检验卡方检验和 ANOVA 这些检验在什么情况下使用，它们的区别是什么？》的回答,https://www.zhihu.com/question/309884517

[Life·Intelligence]的《第一类错误和第二类错误》中的图片https://www.cnblogs.com/leezx/p/9226078.html

CSDN博主「ChenVast」的原创文章《【统计学】相关性和因果关系》，遵循 CC 4.0 BY-SA 版权协议， https://blog.csdn.net/ChenVast/article/details/83272268

简书[TooJo]的原创文章《相关与回归分析》，https://www.jianshu.com/p/da6517ea81bf

百度知道[柒月黑瞳]的《简述相关与回归的区别和联系》,https://zhidao.baidu.com/question/1606024674828812667.html。

CSDN博主「ChenVast」的原创文章《【统计学】相关性和因果关系》，遵循 CC 4.0 BY-SA 版权协议， https://blog.csdn.net/ChenVast/article/details/83272268。

分割线

ＮＯＷ现在行动！关注我们！