二、数据前处理、折线图、饼图

1.数据前处理

导入“中国电影网电影_data.xlsx”

拆分“电影名”

右击“电影名”(选中该列),拆分,则会自动拆分。

自动拆分针对数据有一定格式的。

删除“电影名 - 拆分”、“电影名 - 拆分”,将“电影名 - 拆分 1”右击【重命名】为“电影名称”,将“电影名”列隐藏。

拆分“累计票房”

右击“累计票房”,拆分,右击“累计票房 - 拆分 1”重命名为“累计票房(万)”,右击“累计票房”隐藏。

拆分“导演”

右击“导演”,拆分,删除“导演 - 拆分 2”和“导演 - 拆分 3”,右击“导演 - 拆分 1”重命名为“导演姓名”,右击“导演”隐藏。

注意,原始数据不能删除,只能隐藏。

拆分“主演”

右击“主演”,拆分,删除“主演 - 拆分 2”和“主演 - 拆分 3”,右击“主演 - 拆分 1”重命名为“主演姓名”,右击“主演”隐藏。

注意,如果主演有多个,而又要保留多个主演,则最好使用pandas或其他方法删除英文,tableau的主要功能是可视化。

拆分后的字段重命名不要和原始数据的字段名一样,否则会冲突。

自定义拆分“上映时间”

右击“上映时间”,拆分,会拆成年,月,日各1列。

如果要保留年月日同一列,右击“上映时间”,【自定义拆分】,分隔符为(,拆分选择第一个。

右击“上映时间 - 拆分 1”,重命名为“上映日期”,右击“上映时间”隐藏。

修改“上映日期”的数据类型

点击“上映日期”上方的Abc,可以看到数据类型为【字符串】,点击【日期】,修改为日期类型。

2.绘制折线图

2.1创建电影数量变化折线图

作折线图

在【工作表】里,将【维度】下的【上映日期】放到【列】,将【度量】下【记录数】放到【行】,点击【整个视图】

删除Null值

折线图有null值,点击null上方的点,【排除】。

修改【工作表1】名字为"电影数量变化折线图"

将将【度量】下【记录数】拖到【标记】下的【标签】处,添加标签。

修改轴标题

双击轴标题“记录数”,在【轴标题】下修改“记录数” ,为“电影数量”,回车。

为折线上的点添加注释

选择折线上的点,右击【添加注释】——【标记】。将注释拖放到合适位置。

双击注释,可以修改文字

右击注释,【设置格式】,可以修改注释框,去掉注释框里阴影和边界,修改注释线的颜色和箭头等。

2.2创建电影票房变化折线图

作折线图

新建工作表2,将【维度】下的【上映日期】放到【列】,【累计票房】放到【行】,本来以为是个折线图,结果出现一个表格。

原因是“累计票房(万)”应该放在【度量】下,将“累计票房(万)”拖到【度量】下。

将【行】中的累计票房(万)拖走,将【度量】下的“累计票房(万)”放到【行】。

视图调整为【整个视图】,添加【累计票房(万)】标签。

修改图表里的数字格式

发现图表里的数字太长,右击【标记】下的【累计票房(万)】,选择【设置格式】。

在【区】——【默认值】——【数字】——【数字(自定义)】,修改【小数位数】为0,【显示单位】为k。

删除图表里的Null值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WH9gaBXy-1623507085736)(C:\Users\23645\AppData\Roaming\Typora\typora-user-images\image-20210611172107312.png)]

修改【工作表2】名字为【电影票房变化折线图】

2.3 2015年的电影数量与票房比较分析

用一个双轴图将电影数量和票房相比较。

新建工作表3, 重命名为“2015年的电影数量与票房变化折线图”

筛选2015年

将【维度】下【上映日期】拖到【筛选器】,双击【年】

选择2015,确定。

【筛选器】下多了一个字段。将【维度】下的【上映日期】拖到【列】。

做折线图

将【度量】下的【记录数】拖到行中,点击【列】里的【上映日期】的下拉三角,修改为“月”

将【度量】下的【累计票房(万)】拖到【行】。修改视图为【整个视图】。将轴标题里的【记录数】修改为【电影数量】。

分析

1月份电影数量多,但累计票房少,说明烂电影多。

7月份和12月份电影数量多,累计票房也高。

双轴图

复制表格“2015年的电影数量与票房变化折线图”,右击其中一个轴标题,右击【双轴】。

但其实,将票房和电影数量做双轴图不怎么合适,最后是中国票房VS外国票房,中国电影数量VS外国电影数量,这种维度比较比较合适。

3.饼图和环形图

环形图是饼图的升级版。

3.1 酒店价格等级饼图

导入文件

点击【数据源】,点击上方的彩色星图【显示开始页面】,从【连接】——【到文件】——【Microsoft Excel】,选择“酒店数据.xlsx”导入。

注意:不是直接【数据源】——【添加】。

如果是【数据源】——【添加】,则【数据源】的【连接】下会显示两个表格数据,这是需要做表格连接时才会用到的。

做饼图的方法

新建工作表4。

饼图有两种方法

  • 【标记】下的【自动】里,选择饼图
  • 【智能显示】选择饼图。

将【价格等级】拖到【列】,将【记录数】拖到【行】,出现一个条形图。

点击【智能显示】里的饼图,视图选择【整个视图】。修改【工作表4】为“酒店价格等级饼图”。

将【价格等级】和【记录数】拖到标签,为饼图添加标签。

变成百分比

右击【标记】下的【记录数】——【快速表计算】——【合计百分比】。

修改百分比为整数

右击【标记】下的【记录数】——【设置格式】。

【区】——【默认值】——【数字】——【百分比】,修改【小数位数】为0。

图像导出

【工作表】——【导出】——【图像】。

【导出图像】中,【标题】就是工作表标题;【查看】是图表区域,必选;【颜色图例】和【大小图例】如图所示,图例可以选不同的位置和方向。点击【保存】。

图像如下

说明

右击灰***域——【说明】

双击图表下面的区域,打开【编辑标题】栏,进行文字编辑。【说明】里一般放入自己的分析。

3.2 酒店价格等级环形图

环形图是饼图的变种,做环形图时尽量不要用【智能显示】(有坑),要用【标记】下的【饼图】。

Tableau其实并不能直接生成环形图,是做两个饼图,一大一小,小的饼图变成白色,就成了环形图。

做饼图

【标记】下选择饼图,【价格等级】拖到【颜色】上,生成饼图。

选择【整个视图】。【记录数】拖到【标记】下【角度】,因为饼图每块的大小代表酒店数量。

做环形图

将【记录数】拖到【行】中,按ctrl键复制一下。

两个【记录数】选择【度量】——【最小值】。

选择上面的饼图,点击【标记】下的【大小】,把饼图变大一点。

右击【记录数】——【双轴】,两个饼图合在了一起。

拖走【标记】下的【价格等级】颜色,则小饼图变成灰色。

选择小饼图,点击【标记】下的【颜色】,选择白色,点击【大小】,稍微调大一些。

注意

记录数可以选最小值或最大值,因为记录数的最小值和最大值为1,能够保持同轴。

如果【行】中的【记录数】改为平均值,则两者不同轴。

右击右边的轴——【同步轴】,则可以形成环形图,但环形图不在中间,比较丑。

加标签

【维度】下的【价格标签】放到【标记】下【最小(记录数)】的【标签】上。也就是让外环形成标签。

同样,【度量】的【记录数】放到【标记】下【最小(记录数)】的【标签】上。也就是让外环形成标签。

添加百分比

右击【标记】下【最小(记录数)】的【总和(记录数)】,【快速表计算】——【合计百分比】。

右击【标记】下【最小(记录数)】的【总和(记录数)】——【设置格式】。

【区】——【默认值】——【数字】——【百分比】,修改【小数位数】为0。

修改工作表名称为【酒店价格等级环形图】

添加内环标签

将【度量】下【记录数】拖到【标记】下内环的标签上,这样内环显示总数,这是环形图的标准做法。

如何用【智能显示】做环形图

将3.1的酒店价格等级饼图(用【智能显示】做的饼图)复制一张新图,将【度量】下的【记录数】拖到行里,ctrl复制记录数,右击【行】里两个【记录数】——【度量】——【最小值】,右击【行】里的【记录数】——【双轴】。

你会发现【标记】最下边的【最小(记录数)】也即内环,多了大小和标签标记的【总和(记录数)】,带颜色和标签的【价格等级】。

中间【最小(记录数)】也即外环,也有带有大小标记的【总和(记录数)】,如果改变大小,则会同步大小。

方法:去掉内环里的大小和标签标记的【总和(记录数)】,带颜色和标签的【价格等级】,只保留角度标记的【总和(记录数)】

去掉外环,带有大小标记的【总和(记录数)】,此时可以改变大小。

调整内环颜色和大小为合适位置。

不过,环形图一般都会保留内环里的【总和(记录数)】标签,右击【清除表计算】,这样就会变成一个数字。

作业:

使用“豆瓣电影数据.xlsx”文件,完成以下作业;

1、制作电影数量折线图(以此命名),横轴为时间,排除2016年的数据,显示标签,标记出最大值信息,将标记的线条颜色设为黑色,线末端使用箭头,导出图像,并对折线图进行分析;

2、绘制 剧情、喜剧、动作 三种类型电影环形图(以此命名),要求空心内部显示三种电影的总记录数(提示:27461),显示电影类型标签及总额百分比,导出图像,不显示说明,选择图例在下;分析环形图数据;