第1章 数据分析那些事儿

数据分析分类:

  • 描述性数据分析
  • 探索性数据分析:侧重于在数据之中发现新的特征
  • 验证性数据分析:侧重于验证已有假设的真伪证明

另一个角度看:描述性数据分析属于初级数据分析,常见方法有对比分析法、平均分析法、交叉分析法、分组分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等,工作中用到的就是这个;探索性数据分析和验证性数据分析属于高级数据分析,常见方法有相关分析、因子分析、回归分析、聚类分析法、判别分析法、主成分分析法、对应分析法、时间序列等

数据分析作用:

  • 现状分析
  • 原因分析
  • 预测分析

数据分析六步曲:

1. 明确分析目的和思路:

明确分析目的后,梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从那几个角度进行分析,采用哪些分析指标,确保分析框架的体系化。

如何使分析框架体系化:
以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,确保数据分析维度的完整性,分析结果的有效性及正确性。

常见的营销方面里面模型有4P、用户使用行为、STP理论、SWOT等,常见管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等;

举例:
以PEST分析理论为指导,搭建的互联网行业分析框架
互联网行业分析:
政治:
国家出台了哪些相关政策?有何影响?制约还是侧进?
相关法律有哪些?有何影响?

经济:
GDP及增长率、进出口总额及增长率
消费价格指数、失业率、居民可支配收入

社会:
在人口规模、性别比例、年龄结构、人口分布、生活方式、购买习惯、教育状况、城市、宗教信仰状况等方面,网民与全国人民有何区别?

技术:
技术的发明、传播、更新、商品化速度,技术发展趋势
国家重点支持项目,国家投入的研发费用,专利个数

2. 数据收集

数据来源:
数据库
公开出版物:《中国统计年鉴》《中国社会统计年鉴》《中国人口统计年鉴》《世界经济年鉴》《世界发展报告》等统计年鉴或报告。
互联网
市场调查

3. 数据处理

数据清晰
数据转化
数据提取
数据计算

4. 数据分析

先确定合适的数据分析方法

数据分析与数据挖掘的关系?
数据挖掘是一种高级的数据分析方法,从大量的数据中挖掘出有用的信息,侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。

5. 数据展现

一般常用表格和图形的方式来展现数据分析结果。常见数据图表有饼图、柱形图、条形图、折线图、散点图、雷达图等。
一般情况下,能用图就不用表,能用表就不用文字。

6. 报告撰写

通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。
一份好的数据报告应该有:
一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然;
需要有明确的结论;
一定要有建议或解决方案。

常用数据分析指标和术语

  1. 平均数
    包括算法平均数、调和平均数和几何平均数

  2. 绝对数与相对数

  3. 百分比与百分点

  4. 频数与频率

  5. 比例与比率

  6. 倍数与番数

  7. 同比与环比
    同比是指与历史同时期进行比较得到的数值,反映的是事务发展的相对情况,例如2010.12与2009.12相比;
    环比是指与前一个统计期进行比较得到的数值,反映的是事务逐期发展的情况,例如2010.12与2010.11相比

第2章 结构为王————确定分析思路

数据分析方法论

与数据分析相关的营销、管理等理论统称为数据分析方法论。数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路,比如主要从哪几方面开展数据分析?各方面包含什么内容和指标?

数据分析:

方法论:5W2H、4P、逻辑树等分析思路
工具:Excel、spss、sas等
技术:交叉分析、相关分析、回归分析、聚类分析等

常用数据分析方法论

营销管理理论:
4P、用户使用行为、STP理论、SWOT等
管理理论:
PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART等

1.PEST分析法——主要用于行业分析

用于对宏观环境的分析,指影响一切行业和企业的各种宏观力量。一般分析方面为政治、经济、技术、社会。

政治环境的关键指标有:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、国防开支水平、政府补贴水平、民众对政治的参与度等。

经济环境的关键指标有:GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。

社会环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、股买习惯、教育状况、城市特点、宗教信仰状况等因素。

技术环境的关键指标有:新技术的发明和进展、折旧和报废速度、技术跟新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等因素。

2.5W2H分析法——用途相对广泛,可用于用户行为分析、业务问题专题分析等

5W2H分析法:何因(why)、何事(what)、何人(who)、何时(when)、何地(where)、如何做(how)、何价(how much)

举例:
用户购买行为的分析:
why:
用户购买的目的是什么?
产品在哪方面吸引用户?

what:
公司提供什么产品或服务?
与用户需求是否一致?

who:
谁是我们的用户?
用户有何特点?

when:
何时购买?
多久再次购买?

where:
用户在哪里购买?
用户在各个地区的构成怎样?

how:
用户购买支付方式是怎样?

how much:
用户购买花费的时间、交通等成本各是多少?

3.逻辑树分析法——用于业务问题专题分析

又称问题树、演绎树或分解树等。它是将问题的所有子问题积分层罗列,从最高层开始,并逐步向下扩展。

逻辑树使用三原则?

  • 要素化:把相同问题总结归纳成要素。
  • 框架化:将各个要素组织成框架,遵守不重不漏的原则。
  • 关联化:框架内的各要素保持必要的相互关系,简单而不孤立。

举例:
公司利润下降的专题研究。

利润增长缓慢:
收入?

  • 客户少?
  • 质量变差?
  • 对手竞争?
  • ......

成本?

  • 材料成本?
  • 人工成本?
  • 广告成本?
  • 促销成本?
  • ......

其他?

  • ......
  • ......

4. 4P营销理论——主要用于公司整体经营情况分析

产品、价格、渠道、促销

公司业务分析:

  • 产品
    公司提供什么产品或服务?哪个产品销量最好?
    与用户需求是否一致?
    购买产品的用户都是些什么人?

  • 价格
    公司销售收入怎样?增长?减少?
    用户接受的合理价格是多少?
    用户购买支付方式是怎样的?

  • 渠道
    公司在各地区有多少销售渠道?是否未覆盖到或者覆盖率较低?
    用户通过何种渠道购买?
    用户在各个地区的构成怎样?
    公司的渠道政策是否有吸引力?

  • 促销
    投入多少促销资源?效果如何?
    投放多少宣传广告?效果如何?

5.用户使用行为理论——用于用户行为研究分析

用户使用行为的完整过程:
认知——熟悉——试用——使用——忠诚

用户使用行为理论在网站分析中的应用:

用户行为轨迹 用户的网站行为 网站分析指标
认知 网站访问 ID、PV、人家页面访问量、访问来源
熟悉 网站浏览 平均停留时长、跳出率、页面偏好
站内搜索 搜索访问次数占比
试用 用户注册 注册用户数、注册转化率
使用 用户登录 登录用户数、人均登录、访问登录比
用户订购 订购量、订购频次、内容、转化率
忠诚 用户粘性 回放着比率、访问深度
用户流失 用户流失数、流失率

第3章 无米难为巧妇——数据准备

数据表设计的具体要求:

1、数据表由标题行和数据部分组成
2、第一行是表的列标题(字段名),列标题不能重复
3、第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列
4、数据表中不能有合并单元格存在
5、数据表与其他数据之间应该留出至少一个空白行和空白列
6、数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维数据表格的形式存在的,此时应将二维表转化为一维表的形式存储数据
二维数据表转换成一维数据表的工具——Excel中的“数据透视表和相互间透视图向导”功能

第4章 三心二意——数据处理

数据清洗包括:

  • 清除掉不必要的重复数据
  • 填充缺失的数据(可以接受的标准是:缺失值在10%以下)
  • 检测逻辑错误的数据

第5章 工欲善其事必先利其器——数据分析

数据分析方法三大作用:现状分析、原因分析、预测分析
分别对应分析方法为:对比、细分、预测三大基本方法

数据分析作用 基本方法 数据分析方法
现状分析 对比 对比分析、平均分析、综合评价分析.....
原因分析 细分 分组分析、结构分析、交叉分析、杜邦分析、漏斗图分析、矩阵关联分析、聚类分析......
预测分析 预测 回归分析、时间序列、决策树、神经网络......

1.对比分析法

可分为静态比较和动态比较两类

  • 静态比较是在同一时间条件下对不同总体指标的比较,如不同部门,不同地区、不同国家的比较,也叫横向比较,简称横比。
  • 动态比较是在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。

分析对比分析的维度:
1)与目标对比
2)不同时期对比
3)同级部门、单位、地区对比
4)行业内对比
5)活动效果对比
.............

注意:对比分析需要在统一的标准下进行

2.分组分析法——等距分组

根据数分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。

分组的目的就是为了便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,以便进一步运用各种数据分析方法来解构内在的数量关系,因此分组法必须与对比法结合使用。

关键:确定组数与组距
组限:各组之间的取值界限,最小值为下限,最大值为上限
组距:上限与下限的差值
组中值:上限值与下限值得平均数,他是一组变量值得代表值

步骤:
1)确定组数
2)确定各组的组距
组距=(最大值-最小值)/组数
3)数据分组