【描述数据的统计学工具】

一、统计分为两大类

  • 一个是分析数据集中度和分散度的描述性统计
  • 一个是通过样本对总体情况作出推断的推断性统计

只有掌握了统计学基础,我们才能在统计学的基础上进行聚类、回归、分类、组间差异这四个常见的数据分析方法

二、数据案例引入

2.1销售数据

原始数据中上万条的记录都被保存着,一眼看上去是杂乱无章的数据

2.2销售额表现怎么样?

阐述解释数据的状况,这就是描述统计

2.3可视化

描述数据有两个关键的问题(描述性统计分析)

  • 中心度:销售额集中在哪个区
  • 分散度:最小值和最大值之间的区间(左侧箭头)

三、数据的集中度

包括以下三点:

  • 均值,平均数,均件,最常用的衡量集中度的指标(误区:有非常大的或者非常小的销售额会拉高整体均值,因此需要同时提供中位数和众数)
  • 中位数,将数据从小到大排列之后,处于最中间位置的那个数字
  • 众数,数据中出现最频繁的那个数字,可能有很多众数,或者找不到众数

四、数据的离散度

包括以下四点:

  • 全距,数据中最大值和最小值的差,是简单实用的指标
  • 四分位数,对全距的改进,从小到大排序,均分为四等分,四分位数有三个,处在25%位置上的数值(Q1),处在50%位置上数值即中位数(Q2),和处在75%6位置上的数值(Q3),确定四分位数的位置公式
    Q1的位置=(n+1) x 0.25
    Q2的位置=(n+1) x 0.5
    Q3的位置=(n+1) x 0.75
  • 方差,更全面的反映离散度,偏离
  • 标准差,方差的开方结果,越大,表示偏离越远

五、数据的相关性

5.1案例

数据有很多种类---------------->研究不同数据之间的关系

  • 用户在app上的使用时间和他们购买产品金额大小之间的关系
  • 用户个人资产大小以及他们申请贷款的金额等等

5.2散点图

可以借助散点图来帮助理解
相关关系三种可能的结果:

  • 正相关关系
  • 负相关关系
  • 完全散乱的散点图

5.3计算相关系数

相关系数的取值是在-1到1之间
越接近1正相关关系越强
越接近-1负相关关系越强
越接近0相关关系越弱

六、总结

<mark>数据分析师最关心的问题:是否存在因果关系</mark>
所以第一步一般都是散点图和相关系数

【概率与概率分布】

一、描述性统计的局限性

数据往往由无法控制的事件组成,比如:

  • 用户注册app的时间
  • 工作日用户下单购买产品的数量
  • 某个产品的销售数额

通过对历史数据大量的重复观察,可以找到他们的某种规律
因此我们需要学到概率和概率分布

二、两种主要的数据类型

  • 类别型数据,取值有限的若干个
  • 数字型数据,某个范围内的任何点(可能这个范围没有明显的界限)

三、概率

定义:用来衡量时间发送可能性的比例
用概率来抽象归纳的数据,对于两种不同的数据类型,给出的答案也不相同

四、应用

4.1从分类型数据来看概率的具体应用





用户点击页面的概率是0.6
只有两种可能,点击或者不点击
且每个用户的访问决定都是互相独立的(假设)

如果是四千万个用户呢?
分类型的还有扔硬币,生男孩女孩

4.2从数字型数据来看概率的具体应用

  • 评估用户的收入水平

正态分布






原理:


【估计和假设检验验证】

一、样本

基于所拥有的的数据
比如:
某-家新的初创公司,向市场上推出了新的APP,
运行了一段时间之后,累积了-定的用户数据
样本之外,是所有智能手机可以下载这个app的用户

二、抽样与估计

对于总体(所有智能手机可以下载这个app的用户),想了解的问题:
1.我们的市场用户平均每个月在我们的app下单的次数是多少?
从现有用户中,进行不重复的抽取1万个用户来分析

1万 个用户抽样,发现数据的平均值为3.5
是否直接可以用这个3.5
作为以后所有用户平均购买的参照标准呢?
分析与结论:

2.我们的市场用户平均每个月在我们的app上花多少钱呢?

  • 抽样平均数预测整体的问题- >是一个孤立的数据点
  • 实际工作中,将推测的数据放在区间内,保证预测的精确性以及工作的灵活度
  • 解决方法:使用正态分布的置信区间
    例子:



<mark>【重要,这个对于我们了解整体分布具有巨大意义】</mark>
<mark>记住:</mark>

三、假设检验

<mark>3.1分析数据的思路</mark>

为了得到用户的年龄或者消费情况,
参数估计,基于用户样本的数据来去估计总体用户

<mark>3.2假设检验的思路</mark>

根据经验或者其他方面的信息来假设一个总体用户可能的值

3.3例子

前面用户数据中
平均的消费3900元

某个第三方数据公司,
对于所有用户电商数据进行了统计,
揭示了“总体”的用户平均消费是在4100元

那么,就是相差了200元,但是我们要知道,我们的用户是不是比传统的消费能力低???

我们假设我们的平均消费4100元
验证结果:接受还是拒绝这个假设?



等于4100假设的话,是双尾检验

计算检验统计量

方差分析:两个及以上样本差别的显著性检验
两组阅读量的差别是由于什么造成了
1.假设无差异
2.计算

3.选择合适的显著水平和临界值
4.发现无法拒绝原假设,则在阅读量上没有很大差别