(接上篇)
上篇掌柜分析了人均(mean-price)、地区(area)以及点评数(review-num),下面接着分析推荐菜(recommend)、评分(shop-num)以及多个变量之间的关系。
- 先看推荐菜(recommend),掌柜统计了一下出现频率最高的10个饮品:
结论五:在这650家咖啡店的数据里面,成都人民最爱点的咖啡就是拿铁😁,其次是焦糖玛奇朵和澳白(Flat White),第十位是星巴克的抹茶星冰乐加双倍浓缩。
然后掌柜也做了一个推荐咖啡的词云图:
结果也跟上面统计的一样,拿铁稳居首位!所以以后如果你去一家咖啡店不知道点什么的时候,不妨试着点杯拿铁看看,踩雷的几率会小很多。
- 再来看评分这三列(口味、服务、环境)的数据整体分布情况:
PS:今天突然查看大众点评的页面,发现这三列数据的分制改成5分制了!不过其实结果也一样
(👆这是口味分)
(👆这是服务分)
(👆这是环境分)
可以看出来这650家咖啡店三者得分都在6.8~9.5分之间,没有太低分,也没有满分,看来大家还是要求较宽松。下面掌柜就这三列生成一个数据透视表,然后综合三项得分后降序排列前10咖啡店:
除开第一的西餐厅,可以得到结论六:
在这650家咖啡店里面,有宠物的咖啡店明显更受客户喜欢,评分也会更高🐱🐶。所以以后各位老板如果想开咖啡店了,可以考虑加入宠物元素会让你的店更受欢迎!
下面进行多变量之间的分析,直接使用sns的pairplot函数可以一次性打印出数据集的散点图矩阵:
可以得出结论七:
在这650家咖啡店里面,人均消费(mean-price)同点评数(review-num)之间、点评数和评分(shop-num)之间都无太大关系,而口味(taste-num)、环境(envir-num)、服务(service-num)三者的两两之间呈现正相关的关系。
可以加入趋势曲线来验证刚刚我们的结论:
也是一样的结果。
当然,如果你想通过分类变量查看多变量之间的关系也是可以的,例如这里就是area这个分类变量(不过因为area里面的分类比较多,所以看起来不是很明显,这里只是提供多一种思路):
好了,大众点评成都650家咖啡店的数据分析基本就到这里。其实还可以分析挖掘更多信息,但是限于篇幅,就暂不继续,谢谢大家阅览,希望对你喝咖啡有帮助😁。
☕PS:三篇文章的所有代码已经上传👉:Github
请自取🤝。