置信区间,就是一种区间估计。

先来看看什么是点估计,什么是区间估计。

1 点估计与区间估计

以前很流行一种刮刮卡:

游戏规则是(假设只有一个大奖):

  • 大奖事先就固定好了,一定印在某一张刮刮卡上
  • 买了刮刮卡之后,刮开就知道自己是否中奖

那么我们起码有两种策略来刮奖:

  • 点估计:买1张,这就相当于你猜测这一张会中奖
  • 区间估计:买1盒,这就相当于你猜测这一盒里面会有某一张中奖

很显然区间估计的命中率会更高(当然费用会更高,因为风险降低了)。

接下来,我们看看置信区间是如何进行区间估计的。

2 置信区间

我们通过对人类身高的估计来讲解什么是置信区间。

2.1 上帝视角

对于人类真实的平均身高,我们是没有办法知道的,因为几乎不可能把每个人都统计到。

但这个数据肯定是真实存在的,我们可以说,上帝知道。

在这里我们引入了.上帝视角,即上帝看到的人类身高的真实分布。


也就是说全体人类的平均身高为145cm,为了表示只有上帝可以看到,我把真实分布用虚线来表示:

2.2 点估计

作为愚蠢的人类,我们只能在人群中抽样统计:




通过一次次的抽样,我们可以算出不同的身高均值的点估计:


如果我们关闭上帝视角,我们分辨不出哪个点估计更好:

区间估计可以改进此问题。

2.3 置信区间

置信区间,提供了一种区间估计的方法。



关闭上帝视角,我们仍然不知道哪一个区间估计更好:

但是,和点估计比较:

这就好像用渔网捞鱼,我知道一百次网下去,可能会有95次网到我想要的鱼,但是我并不知道是不是现在这一网:

3 95%置信区间






4 总结

  • 置信区间要求估计量是个常数
  • 95%也被称为置信水平,是统计中的一个习惯,可以根据应用进行调整