1. 人口金字塔
人口金字塔在本质上就是成对条形图。
人口金字塔是一种特殊的旋风图。
金字塔在同一行上对称的显示和比较两个类别的统计指标,并且用另一个不同的类来区分行。
1.1 数据处理
打开“人口数据.xlsx”
为方便理解,将列名【ESTBASE2010】改为【Counts】。
点击工作表1.
右击【Age】——【转换为维度】。
将【Age】拖到【行】,将【Counts】拖到【文本】。
发现图表里有【Null】值,右击【Age】——【转换数据类型】——【字符串】,发现图表里有【85+】。
计算字段转化Age
点击【清除工作表】。
右击空白处——【创建计算字段】,字段名为【年龄】,公式为IF [Age] ='85+' THEN 85 ELSE INT([Age]) END
点击【确定】。
右击【年龄】——【转换为维度】,变成了离散值。(如果还在度量里,就是连续值)。
将【年龄】拖到【行】,【Counts】拖到【文本】
可见Null被修正为85。
1.2创建人口金字塔
点击【清除工作表】。
创建数据桶
右击【年龄】——【创建】——【数据桶】。
【数据桶大小】设置为10,点击【确定】。
将【年龄(数据桶)】拖到【列】,将【Counts】拖到【行】,形成直方图。
点击【交互行和列】。
错误做法
将【Gender】拖到【列】中。
点击【整个视图】。
点击图表里的【年】旁的排序按钮,形成倒序。
右击坐标轴——【编辑轴】
选择【倒序】,发现左边和右边的横坐标轴倒序,但是无法形成金字塔。
将【Gender】从列中拖走。
正确做法
需要创建一个字段。右击【创建计算字段】
字段名为【男性人数】,公式为IF [Gender] = "Male" THEN [Counts] ELSE 0 END
右击【男性人数】——【复制】,修改字段名为【女性人数】,右击【女性人数】——【编辑】
公式为IF [Gender] = "Female" THEN [Counts] ELSE 0 END
将【Counts】从【列】中拖走,将【男性人数】和【女性人数】拖到【列】中。
双击【女性人数】下坐标轴,勾选【倒序】。金字塔形成了。
将【Gender】放到【全部】下的【颜色】里。
如果颜色不对的话,可以点击【颜色】——【编辑颜色】,点击【Female】,再点击调色板里的橙色;点击【Male】,再点击调色板里的【蓝色】。
重命名【工作表1】为【人口金字塔】。
【标记】下空白处右击【说明】,双击说明处,填写内容。
2.漏斗图
2.1漏斗图概念与用途
漏斗图是直观的展现业务流程,可以快速发现流程中存在的问题,对流程进行优化,直观的给出优化的结果。
在电商、营销、客户关系管理等领域有广泛应用。
漏斗图适用于业务流程的比较,比如规范性、周期性长短、环节的分析。
2.2公众号流量转化漏斗图
新建工作表2,重命名为【流量转化漏斗图】。
打开数据"流量转化数据.xlsx"
拖动图表字段
将【数量】拖到【列】,将【阶段】拖到【行】。
将【阶段】拖到【颜色】
选择【整个视图】
发现图表中各阶段顺序不对,应该是从上往下应该是【公众号访问量】——【关注新增人数】——【客服咨询数量】——【成交单数】。
点击图表里的各个字段,上下拖动字段即可。
半个漏斗图
按着ctrl键,复制【总和(数量)】。这时,有两个【总和(数量)】
选择【总和(数量)(2)】下的【自动】为【线】。
在右边坐标轴右击【双轴】。
在【总和(数量)】下的【自动】里选择【条形图】。
右击坐标轴——【同步轴】。这样创建了半个漏斗图。
整个漏斗图
按着ctrl键,复制列里的两个【总和(数量)】。这时有4个【总和(数量)】
选择【总和(数量)(3)】下的【自动】为【条形图】,选择【总和(数量)(4)】下的【自动】为【线】
点击最右边的【总和(数量)】的下拉三角,选择【双轴】
右击坐标轴的下边——【同步轴】。
右击左边坐标轴的下边——【编辑轴】,勾选【倒序】。
去掉显示标题
右击纵坐标轴字段,去掉勾选【显示标题】。
同样,右击顶部的横坐标轴,去掉勾选【显示标题】。
去掉漏斗图中间的线
右击图表空白处——【设置格式】
在左边栏,选择【设置边界格式】,选择【行】——【行分割区】——【区】,选择【无】,
同样,选择【列】——【列分割区】——【区】,选择【无】
结果如下
添加标签
选择图表里的线,将【阶段】拖到【标签】上。
调节图表里的标签位置如下。
添加百分比
添加每个阶段相对于总流量的百分比。
将【数量】拖到【总和(数量)(2)】的【标签】上,右击【总和(数量)】的标签——【添加表计算】。
【计算类型】选择【百分比】,【相对于】选择【第一个】。
右击【总和(数量)】的标签——【设置格式】。
【数字】——【百分比】,小数位数为0。
添加右边标签和百分比
点击图标里右边的线,将【数量】拖到【总和(数量)(4)】的【标签】上,右击【总和(数量)】的标签——【添加表计算】。
【计算类型】选择【百分比】,【相对于】选择【上一】,是每一阶段相对于上一阶段的占比。
右击【总和(数量)】的标签——【设置格式】。
【数字】——【百分比】,小数位数为0。
调整标签位置,最终结果如下。
添加说明
【标记】下空白处右击【说明】,双击说明处,填写内容。
3.箱线图
3.1概念
箱线图又叫做盒须图,是一种常见的统计图形,用于显示数据的位置、分散程度、异常值等。
中位数:数据按降序排列,处于中间位置的数据,总观测数50%的数据值。(注意,是数据值,不是序号)
第1、3四分位数:数据按降序排列,总观测数25%的数据值,是第一四分位数,总观测数75%的数据值,是第三四分位数。
(比如说数据个数有100个,则总观测数为100,按降序排,排到第25个的数值就是第一四分位数。)
第1、3四分位数是看数据的密集程度,两者越近,说明数据越密集;两者越远,说明数据越分散。
IQR:四分位全距,第三四分位数与第一四分位数的差距。
上限:第三四分位数加上1.5倍的IQR
下限:1.5倍的IQR减去第一四分位数
异常值:上下限范围之外的数据
3.2酒店均价的箱线图
创建香港各地区酒店均价箱线图。
新建工作表,重命名为【酒店均价箱线图】。
导入“酒店数据.xlsx”,将工作表【酒店数据】拖入右侧。
箱线图制作
点击工作表【酒店均价箱线图】。
将【地区】拖到【列】,将【价格】拖到【行】。
点击【行】里的【价格】下拉框——【度量】——【平均值】。
点击【标记】下【自动】,选择【圆】。
点击【分析】,取消勾选【聚合度量】。
点击【智能显示】——【盒须图】。
有些地区数据太少,不适合用盒须图,所以要筛选一下。
将【地区】拖到【筛选器】,【顶部】——【按字段】——顶部选择【5】——选择【记录数】,点击【确定】。
【其他地区】属于异常数据,右击【排除】。
发现油尖旺地区的异常数据比较多,中西区的异常值只有一个,但数据范围比较大。
右击【中西区】——【只保留】。
上须和下须就是上限和下限,从图中看两者相差较大。
中位数偏下,说明价格偏低。
上枢纽和下枢纽就是第一四分位数和第三四分位数。有图可见两者之间的区间比较宽,说明价格比较分散。
箱线图设置
右击盒须图——【编辑】,可以将须状延伸值最大值和最小值,也就是【数据的最大范围】。
不过一般是在IQR的1.5倍以内,还可以设置样式,默认是【现代】,也可以选比如【玻璃】。
恢复默认,最后结果如下