设随机试验的样本空间为S = { e }。X = X(e) 是定义在样本空间S上的实值单值函数。称X = X(e) 为随机变量
  有许多随机试验,它们的结果本身是一个数。例如,用Y记某车间一天的缺勤人数,以W记某一地区第一季度的降雨量。我们一般以大写字母如X,Y,Z,… 表示随机变量,以小写字母x,y,z,… 表示实数。

1. 离散型随机变量及其分布律

  有些随机变量,它的全部可能取到的值是有限个或可列无穷多,这种随机变量称为离散型随机变量。
  设离散型随机变量X所有可能取值为xk(k =1,2,3,…),X取各个可能值的概率,即事件{X = xk} = pk ,k =1,2,3,…             (2.1)

我们称(2.1)为离散型随机变量X的分布律。分布律也可以用表格的形式表示

X x1 x2 xn
pk p1 p2 pn

表格形式直观表示了随机变量X取各个值的概率的规律。

三种重要的离散型随机变量:

  • 0 - 1分布
  • 伯努利试验、二项分布
  • 泊松分布
1.1 (0 - 1)分布

(0 - 1)分布的分布律为:

X 0 1
pk 1-p p
1.2 伯努利试验、二项分布

  伯努利试验有一个在朴素贝叶斯分类器的应用:伯努利模型,详情请看:sklearn模块之朴素贝叶斯:(二)伯努利模型的实现

  • 伯努利试验:设试验E只有两种可能的结果:A和~A,则称E为伯努利(Bernoulli)试验。设P(A) = p (0 < p < 1),此时P(~A) = 1 - p 。将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利实验。
  • 二项分布(Binomial Distribution),即重复n次的伯努利试验(Bernoulli Experiment),用ξ表示随机试验的结果。如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是
1.3 泊松分布

泊松分布的分布律为:

其中λ > 0是常数,k = 0,1,2 …

2. 随机变量的分布函数

  很多情况下,我们对随机变量的取值落在某一区间上的概率更感兴趣,如果我们可以得知X的分布函数,我们就知道X落在任一区间(x1,x2 ]上的概率,这就是分布函数存在的意义。分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。

  • 定义:设X是一个随机变量,x是任意实数,函数

    称为X的分布函数

对于任意实数x1,x2(x1 < x2)
因此,若已知X的分布函数,就可以知道X落在任一区间上的概率,在这个意义上说,分布函数完整地描述了随机变量的统计规律性。

3. 连续型随机变量及其概率密度

如果对于随机变量X的分布函数F(x),存在非负可积函数 f(x),使对于任何实数x有

则称X为连续型随机变量,f(x)称为X的概率密度函数。

3.1 均匀分布

若连续型随机变量X具有概率密度

则称X在区间(a,b)上服从均匀分布。记为X ~ U(a,b)
图像:

密度函数图像说明落在(a,b)的子区间的概率只依赖于子区间的长度而与子区间的位置无关。

3.2 指数分布

暂不知道用途,略过。

3.3 正态分布(高斯分布)

若连续型随机变量X的概率密度为:

则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布高斯分布,记为X ~ N(μ,σ2)

图像:
x离μ越远,f(x)的值越小,这表明对于同样长度的区间,当区间离μ越远,X落在这个区间上的概率越小。

4. 随机变量的函数分布

略。


参考资料:《概率论与数理统计(第四版)》作/译者:盛骤 谢式千 潘承毅