第1章 数据分析那些事儿
数据分析分类:
- 描述性数据分析
- 探索性数据分析:侧重于在数据之中发现新的特征
- 验证性数据分析:侧重于验证已有假设的真伪证明
另一个角度看:描述性数据分析属于初级数据分析,常见方法有对比分析法、平均分析法、交叉分析法、分组分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等,工作中用到的就是这个;探索性数据分析和验证性数据分析属于高级数据分析,常见方法有相关分析、因子分析、回归分析、聚类分析法、判别分析法、主成分分析法、对应分析法、时间序列等
数据分析作用:
- 现状分析
- 原因分析
- 预测分析
数据分析六步曲:
1. 明确分析目的和思路:
明确分析目的后,梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从那几个角度进行分析,采用哪些分析指标,确保分析框架的体系化。
如何使分析框架体系化:
以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,确保数据分析维度的完整性,分析结果的有效性及正确性。
常见的营销方面里面模型有4P、用户使用行为、STP理论、SWOT等,常见管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等;
举例:
以PEST分析理论为指导,搭建的互联网行业分析框架
互联网行业分析:
政治:
国家出台了哪些相关政策?有何影响?制约还是侧进?
相关法律有哪些?有何影响?
经济:
GDP及增长率、进出口总额及增长率
消费价格指数、失业率、居民可支配收入
社会:
在人口规模、性别比例、年龄结构、人口分布、生活方式、购买习惯、教育状况、城市、宗教信仰状况等方面,网民与全国人民有何区别?
技术:
技术的发明、传播、更新、商品化速度,技术发展趋势
国家重点支持项目,国家投入的研发费用,专利个数
2. 数据收集
数据来源:
数据库
公开出版物:《中国统计年鉴》《中国社会统计年鉴》《中国人口统计年鉴》《世界经济年鉴》《世界发展报告》等统计年鉴或报告。
互联网
市场调查
3. 数据处理
数据清晰
数据转化
数据提取
数据计算
4. 数据分析
先确定合适的数据分析方法
数据分析与数据挖掘的关系?
数据挖掘是一种高级的数据分析方法,从大量的数据中挖掘出有用的信息,侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。
5. 数据展现
一般常用表格和图形的方式来展现数据分析结果。常见数据图表有饼图、柱形图、条形图、折线图、散点图、雷达图等。
一般情况下,能用图就不用表,能用表就不用文字。
6. 报告撰写
通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。
一份好的数据报告应该有:
一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然;
需要有明确的结论;
一定要有建议或解决方案。
常用数据分析指标和术语
平均数
包括算法平均数、调和平均数和几何平均数绝对数与相对数
百分比与百分点
频数与频率
比例与比率
倍数与番数
同比与环比
同比是指与历史同时期进行比较得到的数值,反映的是事务发展的相对情况,例如2010.12与2009.12相比;
环比是指与前一个统计期进行比较得到的数值,反映的是事务逐期发展的情况,例如2010.12与2010.11相比
第2章 结构为王————确定分析思路
数据分析方法论
与数据分析相关的营销、管理等理论统称为数据分析方法论。数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路,比如主要从哪几方面开展数据分析?各方面包含什么内容和指标?
数据分析:
方法论:5W2H、4P、逻辑树等分析思路
工具:Excel、spss、sas等
技术:交叉分析、相关分析、回归分析、聚类分析等
常用数据分析方法论
营销管理理论:
4P、用户使用行为、STP理论、SWOT等
管理理论:
PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART等
1.PEST分析法——主要用于行业分析
用于对宏观环境的分析,指影响一切行业和企业的各种宏观力量。一般分析方面为政治、经济、技术、社会。
政治环境的关键指标有:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、国防开支水平、政府补贴水平、民众对政治的参与度等。
经济环境的关键指标有:GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。
社会环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、股买习惯、教育状况、城市特点、宗教信仰状况等因素。
技术环境的关键指标有:新技术的发明和进展、折旧和报废速度、技术跟新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等因素。
2.5W2H分析法——用途相对广泛,可用于用户行为分析、业务问题专题分析等
5W2H分析法:何因(why)、何事(what)、何人(who)、何时(when)、何地(where)、如何做(how)、何价(how much)
举例:
用户购买行为的分析:
why:
用户购买的目的是什么?
产品在哪方面吸引用户?
what:
公司提供什么产品或服务?
与用户需求是否一致?
who:
谁是我们的用户?
用户有何特点?
when:
何时购买?
多久再次购买?
where:
用户在哪里购买?
用户在各个地区的构成怎样?
how:
用户购买支付方式是怎样?
how much:
用户购买花费的时间、交通等成本各是多少?
3.逻辑树分析法——用于业务问题专题分析
又称问题树、演绎树或分解树等。它是将问题的所有子问题积分层罗列,从最高层开始,并逐步向下扩展。
逻辑树使用三原则?
- 要素化:把相同问题总结归纳成要素。
- 框架化:将各个要素组织成框架,遵守不重不漏的原则。
- 关联化:框架内的各要素保持必要的相互关系,简单而不孤立。
举例:
公司利润下降的专题研究。
利润增长缓慢:
收入?
- 客户少?
- 质量变差?
- 对手竞争?
- ......
成本?
- 材料成本?
- 人工成本?
- 广告成本?
- 促销成本?
- ......
其他?
- ......
- ......
4. 4P营销理论——主要用于公司整体经营情况分析
产品、价格、渠道、促销
公司业务分析:
产品
公司提供什么产品或服务?哪个产品销量最好?
与用户需求是否一致?
购买产品的用户都是些什么人?价格
公司销售收入怎样?增长?减少?
用户接受的合理价格是多少?
用户购买支付方式是怎样的?渠道
公司在各地区有多少销售渠道?是否未覆盖到或者覆盖率较低?
用户通过何种渠道购买?
用户在各个地区的构成怎样?
公司的渠道政策是否有吸引力?促销
投入多少促销资源?效果如何?
投放多少宣传广告?效果如何?
5.用户使用行为理论——用于用户行为研究分析
用户使用行为的完整过程:
认知——熟悉——试用——使用——忠诚
用户使用行为理论在网站分析中的应用:
用户行为轨迹 | 用户的网站行为 | 网站分析指标 |
---|---|---|
认知 | 网站访问 | ID、PV、人家页面访问量、访问来源 |
熟悉 | 网站浏览 | 平均停留时长、跳出率、页面偏好 |
站内搜索 | 搜索访问次数占比 | |
试用 | 用户注册 | 注册用户数、注册转化率 |
使用 | 用户登录 | 登录用户数、人均登录、访问登录比 |
用户订购 | 订购量、订购频次、内容、转化率 | |
忠诚 | 用户粘性 | 回放着比率、访问深度 |
用户流失 | 用户流失数、流失率 |
第3章 无米难为巧妇——数据准备
数据表设计的具体要求:
1、数据表由标题行和数据部分组成
2、第一行是表的列标题(字段名),列标题不能重复
3、第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列
4、数据表中不能有合并单元格存在
5、数据表与其他数据之间应该留出至少一个空白行和空白列
6、数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维数据表格的形式存在的,此时应将二维表转化为一维表的形式存储数据
二维数据表转换成一维数据表的工具——Excel中的“数据透视表和相互间透视图向导”功能
第4章 三心二意——数据处理
数据清洗包括:
- 清除掉不必要的重复数据
- 填充缺失的数据(可以接受的标准是:缺失值在10%以下)
- 检测逻辑错误的数据
第5章 工欲善其事必先利其器——数据分析
数据分析方法三大作用:现状分析、原因分析、预测分析
分别对应分析方法为:对比、细分、预测三大基本方法
数据分析作用 | 基本方法 | 数据分析方法 |
---|---|---|
现状分析 | 对比 | 对比分析、平均分析、综合评价分析..... |
原因分析 | 细分 | 分组分析、结构分析、交叉分析、杜邦分析、漏斗图分析、矩阵关联分析、聚类分析...... |
预测分析 | 预测 | 回归分析、时间序列、决策树、神经网络...... |
1.对比分析法
可分为静态比较和动态比较两类
- 静态比较是在同一时间条件下对不同总体指标的比较,如不同部门,不同地区、不同国家的比较,也叫横向比较,简称横比。
- 动态比较是在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。
分析对比分析的维度:
1)与目标对比
2)不同时期对比
3)同级部门、单位、地区对比
4)行业内对比
5)活动效果对比
.............
注意:对比分析需要在统一的标准下进行
2.分组分析法——等距分组
根据数分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。
分组的目的就是为了便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,以便进一步运用各种数据分析方法来解构内在的数量关系,因此分组法必须与对比法结合使用。
关键:确定组数与组距
组限:各组之间的取值界限,最小值为下限,最大值为上限
组距:上限与下限的差值
组中值:上限值与下限值得平均数,他是一组变量值得代表值
步骤:
1)确定组数
2)确定各组的组距
组距=(最大值-最小值)/组数
3)数据分组