数据分析
前言
- 东西很多,不可能一天写完,所以就趁下班时间和周末慢慢更新啦!不过实习的技能我会优先更新,毕竟没技术一切都是白给!
- 该博客短期内不会更新了,在工作室分析游戏的节奏很快,几乎没什么空闲时间,等到稳了那天再来给大家继续分享...加油
1.为什么要写这个博客?
- 因为之前写的几篇数据分析的面经大家都感觉还不错,然后很多同学问了我一些问题,都是私信回复的,最近也是自己的计划有变,所以就写一篇关于数据分析的博客吧,帮助更多有需要的同学,对于自己就当复习巩固了!
- 感谢大家对我的肯定!在此声明一下,所有观点都是个人观点以及导师前辈们给我的建议意见,大家参考即可!欢迎大神们提出自己的意见建议与想做数据分析的同学们讨论交流!喷子省点力气哈,谢谢啦!
- 个人情况?
- 西安双非一本,计算机科学与技术专业,2022届大四;
- 有过两段数据相关实习,第一段是奇虎360的数据相关的。目前是在腾讯做数据科学实习。
- 之前拿到过腾讯,快手,360,京东,滴滴,百度等公司的数据分析实习offer!
- 为什么转数据分析?
- 不想做纯开发,社交牛逼症患者不想一天到晚跟电脑社交,想跟人社交;
- 不想浪费自己会的那点编程技术,然后比较喜欢跟数据打交道,从数据中发现问题,所以想做数据科学,但是国内数据科学实习岗位太少,难度很大,所以想从数据分析入手,就一路走过来了。
- 实习中越做越喜欢,就打算以后也朝这个方向努力了!
- 现在的状态?
- 之前的计划是留学,从大二也就一直以留学申请为目标准备的,大部分时间都准备科研和雅思了,找实习也是为了文书能丰富一点,所以起步也比较晚,今年六月份才开始准备的。九月份也在准备文书等资料,没有参加秋招,目前一个offer没得;
- 现在是暂缓留学,准备就业,就边实习边备战春招吧。
2.什么是数据分析?
- 拿老板的话说就是————会开发,懂运营(这句我自己加的,技多不压身嘛)的产品经理!
- 待补充
3.数据分析和数据科学的区别?
- 我导师对我说的,数据分析是——预测,数据科学是——预估!
- 待补充
4.其他内容
1.数据分析需要的技能
- 这些技能是我感觉数据分析师必备的技能,可能有一些日常用不到,但是技多不压身,像Python相关的也好久没用了,就边写边复习了!
1.1 SQL(必备技能)
1.1.1 SQL
- SQL就一句话多练!看着同事面试实习生,学历背景都很硬,但很多都是SQL不过关的,SQL虽然说是所有技能中最简单的,但却是最基本的,SQL不会其他的再牛逼也是白给,没人想招一个只会纸上谈兵不会干活的来!
- 至于怎么练?更简单,把力扣上的简单和中等难度题刷到闭着眼都能做出来,这就是入门水平,困难的题就自己根据自己的情况去刷吧,我当时刷的时候做出来要花很长时间,所以还是把重心放到中等难度的题上了,性价比比较高!
- 我自己的练习方法永远是边学边练,直接从简单题入手练就行,不会就看解析,看完继续练,这样速度会快一点!不要只看不练!
- 多一句嘴嗷!数据库的题很多都是锁住的,要会员才能做,所以大家就各显神通了!
- 再多一句嘴!我日常实习中写的SQL比困难的题还变态,实习了3个月,写了1W+行SQL,所以不要以为工作里面的SQL就是力扣的难度,其实更复杂,力扣只是让大家入个门,等你找到实习后,SQL的水平会进步很快的,毕竟日常就是各种取数的需求,前提是你能找到实习!!!
1.1.2 HIVE SQL
- 其实和SQL很像,一开始实习就是写HIVE SQL,个人建议其实不用专门练,把SQL练好就行,这两个就是一些函数不互通,其实大同小异!
1.2 Python
- 我现在也忘得差不多了,要不是最近实习要做数据挖掘相关的,估计都要落灰了!大家先练SQL吧!
1.2.1 Python pandas&numpy
1.2.2 Python 机器学习(偏向数据科学)
- 我的实习很少用得上,但是等到需要的时候得会用,至少得懂去哪找模型,怎么用模型去实现需求支持业务!!!
- 以下的数据挖掘基本知识建议当作八股文背过,多学一点总是好的,不仅为了面试,也为了以后可以更加了解业务!以上知识来自徐麟老师的——数据分析师求职面试指南
基本分类
- 数据挖掘常用概念
- 数据挖掘种数据集分为哪几类?
训练集:结果已知,用于模型训练拟合的数据样本,70-80%
验证集:结果已知,不参与模型的训练拟合过程,用于验证通过训练集得到的模型结果
测试集:结果未知,最终利用模型输出结果的数据集
这三部分构成了模型的整体数据集,模型上线后输出模型在测试集上的结果,并于最终的实际结果进行对比,测试集后续可以转为训练集或者验证集,实现模型的不断迭代和优化。
通俗的讲就是(自己的理解仅供参考),训练集就是上课老师给你教东西,验证集就是课后的作业,都能告诉你做的对和错让你水平提高,测试集就是考试,来看看你到底啥水平。
- 简述参数和超参数之间的区别
参数:y=ax+b中的a和b就是通过模型训练获得的,这就是典型的参数
超参数:无法通过训练得到的,训练前需要人为给出,例如决策树的深度和随机森林中的树的数量
- 简述过拟合和欠拟合
模型误差是由偏差和方差相加而成的,偏差反应模型在训练集上期望输出和真实结果间的差距,即精准度。 方差反映在不同训练集下得到的结果与真实结果之间误差的波动情况,即稳定性。
欠拟合:偏差过高。
过拟合:不同训练集中有不同的噪声,模型过于复杂时,会大量学习训练集中的噪声,最终导致模型泛化能力变差。
什么是噪声:
1.输出错误:相同数据两个不同结果,相同的结果两种不同的处理方式;
2.输入错误:数据来源出问题,例如性别填成年龄;
- 常见的模型分类方法
- 简述监督学习和非监督学习的区别
监督学习:训练数据既有特征又有标签,称为监督学习;通过训练,让机器找到特征和标签之间的联系;
非监督学习:只有特征没有标签,通过数据间的内在联系和相似性;
监督学习 | 非监督学习 |
---|---|
预测问题:线性回归模型,时间序列模型,神经网络模型 | 聚类问题:k-means聚类模型等 |
分类问题:逻辑回归模型,决策树模型,随机森林模型,boosting模型 | 降维问题:PCA模型等 |
- 简述参数模型和非参数模型的区别和各自优缺点
参数模型 | 非参数模型 |
---|---|
线性回归模型,逻辑回归模型 | 决策树,随机森林模型 |
优点:很强的可解释性,模型学习训练快速,对数据量要求较低,不需要大数据集 | 优点:不用过多的假设,训练集足够大时,可以逼近任何复杂的模型,数据量大且逻辑复杂的问题适合非参数模型 |
缺点:需要对目标函数提前做出假设,复杂问题很难应用,模型复杂度低易产生欠拟合现象 | 缺点:需要选择超参数,可解释性弱 |
- 常见模型介绍
1.线性回归模型
线性模是利用数理统计中的回归分析,来确定两个或者两个以上的变量间相互依赖的定量关系的统计分析方法,y=ax+b,b为随机误差,且服从期望为0的正态分布,主要应用到预测
优化:1.引入高次项;2.引入交互项
优点:快速,使用方便,可解释性强
缺点:需要提前对目标函数做出假设,数据量增加和问题变得复杂时,无法很好的处理
2.逻辑回归模型
在线性回归模型的最终结果y上用sigmoid函数进行映射到[0,1]之间,逻辑回归主要用于解决二分类问题(多分类用softmax函数),而非预测(线性回归的应用)
L1和L2:引入惩罚项,使模型中的各个变量系数收缩,避免过拟合的发生。具体自己看书吧,很难解释。。。
优点:可解释性强
缺点:数据量过大会出现欠拟合现象,此时需要选择一些非参数模型训练
3.决策树模型
决策树是一种非参数模型,无需对目标函数和变量做过多的假设,使用更加灵活;决策树模型类似流程图树形结构,树的每一个节点代表对一个特征的测试,树的分支代表测试的结果,每个叶子节点就是一个类别。
每个节点选择什么特征常用方法:1.ID3;2.C4.5;3.CART;建议看书,很难解释
优点:不需要提前对样本提出假设。可以处理复杂问题,可以同时处理分类和预测问题,对缺失值不敏感
缺点:弱学习器。容易过拟合,造成结果误差太大,处理关联性较强的数据时表现的不是很好。
优化:1.控制树的深度和节点个数,避免过拟合;2.交叉验证法;3.模型集成,生成更复杂的模型;
4.随机森林
随机森林是模型集成Bagging方法的典型代表,通过对样本或者变量的n次随机采样,可以得到n个样本集。对于每个样本集,可以独立训练决策树模型,对于n个决策树模型的结果,通过集合策略来得到最终的输出。注意:这n个决策树模型之间是互相独立的,并不是完全独立,训练集之间有交集;
相对决策树优势:模型偏差包括偏差和方差,假设各个决策树模型有相同的偏差和方差,通过各个决策树模型得到的结果进行平均或者投票,可以保证保证随机森林模型的偏差与单个决策树模型的偏差基本相同,但由于各个决策树之间的相对独立性,通过对结果进行平均或者加权能够大幅度减小随机森林的模型方差,最终将误差变小。
模型集成: 多个弱学习器进行组合,提高模型的学习泛化能力;模型集成的常用方法是 Bagging 和 Boosting ,随机森林和GBDT是各自的代表;
模型融合:基于模型集成,对各个模型结果进行组合,得到最终的结果;
模型融合常用方法:
平均法:预测问题中,对模型结果进行平均作为最终结果;
投票法:分类问题,选择模型中预测比较多的类别作为最终结果;
5.Boosting模型
Boosting模型是将多个决策树模型集成后的模型。
随机森林和Boosting模型之间的区别:
随机森林和Boosting模型分别用了Bagging和Boosting方法,随机森林模型各个决策树模型的生成是相互独立的,基于通过样本重采样方法得到不同训练集而产生不同的决策树模型;Boosting方法中新的决策树模型是基于此前已经生成的决策树模型的结果,决策树之间并不互相独立,每一个决策树模型的生成都依赖前一个决策树模型;
基于决策树模型的Boosting方法以及各自原理是什么?
Boosting方法包括Adaboost和GBDT两种,区别如下:
Adaboost:加大此前决策树模型中分类错误的数据的权重,使下一个生成的决策树模型能够尽量将这些训练集分类正确;
GBDT:通过计算损失函数梯度下降方向,定位模型的不足而建立新的决策树模型。
随机森林和GBDT模型的优缺点:
优点:处理离散型和连续型变量同时存在的场景。不需要对数据进行过多的假设,能够处理比较复杂的问题。
缺点:面对更大的训练集,训练速度较慢;
6.XGBoost模型
- 模型效果评估方法
预测:
MSE:
RMSE: MAE:
分类:
1.3 数据分析思维
- 这个就是大家经常说的业务题,推荐一本书吧,这是我同事推荐给我的,我看了很多了,刚开始看可能看不懂,但是多看几遍呗!边看边写思维导图是一个高效率的办法!
1.3.1 常用的分析方法:以下内容大部分都是把书中的内容提取出来,详细了解的话还是建议阅读书籍
分析方法 | 分析目的 |
---|---|
逻辑树分析方法 | 将复杂的问题变得简单 |
PEST分析方法 | 行业分析 |
多维度拆解分析方法 | 多个角度思考 |
对比分析法 | 对比 |
假设检验分析法 | 如何分析原因 |
相关分析方法 | A和B有什么关系 |
群组分析法 | 留存和流失分析 |
RFM分析方法 | 用户价值分类 |
AARRR模型分析方法 | 用户行为分析 |
漏斗分析方法 | 转化分析 |
1. 5W2H分析法:
案例1:如何设计一款产品?
- what(是什么):这是什么产品?
- when(何时):什么时候需要上线?
- where(何地):在哪里发布这些产品?
- why(为什么):用户为什么需要它?
- who(是谁):这是给谁设计的?
- how(怎么做):这个产品需要怎么运作?
- how much(多少钱):这个产品里有付费功能吗?价格是多少?
需要注意的点:复杂的商业化问题无法解决!例如:DAU下降的问题?
2.逻辑树分析方法
案例1:费米问题——芝加哥有多少钢琴调音师?
- 芝加哥有多少钢琴调音师=芝加哥调音师全年的工作时间/每个调音师每年工作多长时间
芝加哥有多少钢琴调音师=芝加哥调音师全年的工作时间/每个调音师每年工作多长时间=10000/1600=63人 该方法一般不是单独存在使用,会融合到其他分析方法里,辅助解决问题!说到底就是化繁为简,考的不是你算的多准,而是你的拆解思维!
3.行业分析法
案例1:PEST分析法
- 政策(policy):政策环境主要包括政府的政策、法律等
- 经济(economy):经济环境主要指一个国家的国民收入、消费者的收入水平等。
- 社会(society):社会环境主要包括一个地区的人口、年龄、收入分布、购买习惯、教育水平等。
- 技术(technology):技术环境是指外部技术对公司发展的影响。
case by case 后面面试题里面有的话再细说!
4.多维度拆解分析方法
案例1:假设在每个医院最近收治的1000例患者中,A医院有900例患者存活。然而,B医院只有800例患者存活。这样看起来,A医院的存活率更高,应该选择A医院。你的选择真的是正确的吗?
- 光看患者整体时,我们可能注意不到“数据构成要素的差异”。现在根据患者的健康状况,我们将每家医院入院的总人数拆解为两组,一组是轻症患者,一组是重症患者
- 我们来比较A医院和B医院的重症患者组。A医院有100例患者入院时是重症患者,其中20例存活。B医院有400例患者入院时是重症患者,其中200例被救活了。所以,对于重症患者,去B医院的存活率更高,是更好的选择
注意辛普森悖论!
如何使用多维度拆解分析方法
- 从指标构成来拆解:GMV=流量* 转化率 * 客单价
- 从业务流程来拆解:新增用户数=地域(一二三线城市)+性别(男女)+渠道(内部外部)
前面我们讲到,只看数据整体,可能注意不到“数据内部各个部分构成的差异”,导致“辛普森悖论”。
5.对比分析法
注意对比对象规模要一致
6.假设检验分析法
- 提出假设:用户 产品 竞品 /4P理论:产品 价格 渠道 促销 / 业务流程
- 收集证据:SQL取数
- 得出结论:问题所在
一般DAU下降就用假设检验分析方法来做
7.相关分析方法
相关分析的作用有以下三点:
- 在研究两种或者两种以上数据之间有什么关系,或者某个事情受到其他因素影响的问题时,可以使用相关分析
- 在解决问题的过程中,相关分析可以帮助我们扩大思路,将视野从一种数据扩大到多种数据
- 相关分析通俗易懂
Y=AX+B,A的值规则如上 如下图所示:
8.群组分析方法
群组分析方法”(也叫同期群分析方法)是按某个特征,将数据分为不同的组,然后比较各组的数据,说白了就是对数据分组然后来对比
- 案例1:为了分析用户为什么流失,我们可以使用群组分析方法。
- 注意事项:使用群组分析方法需要注意如何分组,除了按时间分组,还可以根据具体的业务场景来确定
9.RFM分析法
RFM是3个指标的缩写:最近1次消费时间间隔(Recency)、消费频率(Frequency)、消费金额(Monetary),通过这3个指标对用户分类的方法称为RFM分析方法
- 用户分类规则
- 有什么用:通过RFM分析方法可以把用户分为8类,这样就可以对不同用户使用不同的营销策略,例如信用卡的会员服务
10.AARRR模型分析方法
AARRR模型对应产品运营的5个重要环节
- 获取用户(Acquisition):用户如何找到我们?
- 激活用户(Activation):用户的首次体验如何?
- 提高留存(Retention):用户会回来吗?
- 增加收入(Revenue):如何赚到更多钱?
- 推荐(Referral):用户会告诉其他人吗?
11.漏斗分析法
- 从业务流程起点开始到最后目标完成的每个环节都会有用户流失,因此需要一种分析方法来衡量业务流程每一步的转化效率,漏斗分析方法就是这样的分析方法。
- 漏斗分析的作用是“定位问题节点”,即找到出问题的业务环节在哪。
- 注意事项:使用漏斗分析方法来分析用户转化问题时,不同行业的业务流程不一样,所以漏斗分析图也不一样。如果把漏斗分析方法原封不动地带入某个行业,不去结合所在行业的业务特点,那么分析出的结果很难具有业务指导性。
大部分的分析方法就这几种了,日常够用了,更多的是组合这些分析方法去解决业务问题,上面的图和文字内容都是参考以下这本书,附上链接,大家可以去仔细阅读一下,很好的一本入门书—— 数据分析思维:分析方法和业务知识
1.4 产品和运营思维(好的数据分析师必备)
1.5 数据可视化(Excel数据太多就不行了)
1.5.1 Tableau
1.5.2 Power BI
2.数据分析实习面试题
- 打算把我之前实习面试的题目都整合一下放到这里,然后用现在的知识,去拆解分析一下,给出一个自己的答案,大家就当参考吧!
2.1 业务题
2.2 SQL&Python
2.3 开放题
字节跳动 数据分析汇总
6.8 字节跳动 一面 6.8 1h40m
1.自我介绍
2.实习经历介绍 RFM模型
3.RFM解释
4.归一化是否了解
5.评分系统设计与分层
6.SQL count()和count(1)和count(*)区别
7.left right inner full分别解释,并且mysql中是否有全连接(无)
8.怎么实现全连接和内连接(用左右链接实现)
9.一道力扣SQL题,自连接
10.窗口函数 dense rank和rank区别(同名次处理不同)
11.python列表与元组的区别(元组值不可修改)
12.python pandas知识(replace使用,fulnull使用)
13.优惠券项目:缺失值处理,怎么设置,
14.反问:对一面的评价:基础知识不扎实,面试官很诧异count没答上来,我确实count那块没复习过,其他都回答的不错
总结:面试官是一个小哥,声音很nice,我不会的他都很耐心的引导我去思考回答,如果实在回答不出来,会给我讲,很耐心,我都很害怕回答不上来的太多,都准备好挂了,结果小哥最后还是让我过了
6.10 字节跳动 2面 30min
1.自我介绍,为啥计算机来面试数据分析
2.实习的RFM模型
3.RFM解释,对用户生命周期分层的依据
4.对于RFM打分系统的设计出发点
5.优惠券项目特征工程的选取
6.短期内的规划,希望在字节学到什么
7.反问:对二面的评价:对于RFM了解的不是很深(当时面试状态不好,脑子迷糊的很,没说明白),但是实习生这个水平不错了,其他都没啥问题
总结:是一个小姐姐,HR小姐姐强调技术面,可能第一面把该面的面完了,所以第二面没问太多,我还以为对我的回答不满意,所以半个小时就结束了
6.11 字节跳动 三面 40min
1.自我介绍(准备很充分,leader人很好,说背了很久吧,有准备是好事)
2.问了一下对数据分析的认识(脑子一热胡说八道成大数据了,leader说我是不是没搞清楚面错部门了,吓死,后来重新说了一遍),为啥计算机来面试数据分析
3.怎么判断一个抖音视频的质量(完播率,赞评比等,没问到拿手的业务题)
4.对于字节跳动的认识(年轻,有活力)
5.我的性格(我说不服输,对于喜欢的东西有很强的动力)
6.反问:对于三面的评价:准备的很充分是好事,业务不熟,但知道一些专业词汇,性格不一定适合这个岗位,要耐得住寂寞的,到了她们部门挨骂比夸奖多,对于字节的认识没什么问题,给我整整说了十几分钟,面试了这么多家大厂,字节的leader是给我评价最全面最久的一次,受益匪浅
总结:跟我想象中的leader不一样,我以为会是很严肃的,结果也是很轻松,是个女leader,能隔着视频(前三面都只有我开视频,面试官那边都是关闭状态)感觉到那个气场很强大,肯定是个女强人,业务那里业务准备的不全,所以擅长的业务题没有问到,但是leader给我的评价我印象深刻,受益匪浅
6.17 字节跳动 HRBP面 40min
1.之前的实习经历,之前没有互联网实习,所以问了学到了什么,做了什么,怎么找到这份实习的,实习时间怎么这么短,狠挖实习
2.规划 考研or就业 why
3.为什么没有在34月份找实习,我说个人原因,最后问了说因为论文
4. 问在医疗部门的数据分析部门有没有什么问题?我说没有(面试官还逗我说我想去哪个部门就能去哪个部门,我上当了,说了抖音,因为我因为抖音知道的字节,面试官笑了)
5.个人的性格
6.能实习多久?
7.反问:base北京总部 有导师辅导
总结:等了快一周等来的HR面,面完松了一口气,感觉还不错,只不过跟其他面经里面的HR面不太一样,没有问到为什么要来字节(我准备了好多哈哈),两个小姐姐都很温柔,很幽默(字节的面试官都很nice,你不会也会去引导你,然后耐心给你讲解,五星好评)本来感觉面试到此结束了,结果。。。
6.27 字节跳动 一面 1h
直接GG!因为没拿电脑,拿的手机,面试官跟我说去找电脑,但是之前字节北京四面都是飞书,所以确实没准备好电脑环境,浪费了十分钟!确实是自己的问题,也可以看出来面试官有点不爽。
1.自我介绍
2.问了数据挖掘项目细节
3.给了一串数字计算AUC,这个有两种方法,当时不知道没答上来
4.coding:因为没有电脑,所以只能手撕,就是SQL基本的求DAU(日活)本来有两道,可能面试官看我没电脑就一道就过了,这个肯定减分了
5.业务题:对抖音用户增长的理解,对比快手,具体问题,在美国独立日什么的(重要节日)怎么设置指标来对比抖音快手的DAU(这个业务题一直在扩展)
6.统计学:第一个乒乓球七局四胜,A已经赢了2局,那么A赢得概率是多大,就用C啥啥那个就行!当时没反应过来,就硬解,错了!贝叶斯说不定也行!
7.假设检验:如何证明一个人很优秀?例如乒乓球那个赢的人,怎么证明他真的很厉害?我当时直接懵逼!后来才知道证明一个人很牛逼很难,但是证明他不牛逼会简单很多!按这个思路,假设检验就OK!
8.因为一开始浪费了几分钟,面试官说到时间了,剩下的就不问了(到这就知道凉了),反问(凉了有啥反问的哈哈哈)
这次面试本来信心满满,毕竟之前过了四面了,以为这次会简单一点,毕竟面评都还不错,特别给负责的HR小姐姐点赞,太负责了,马上就帮我问反馈,虽然意料之内挂了,但是认识了一个很优秀的HR小姐姐!总之以后注意以下几点吧:
1.把电脑环境调试好!尤其是牛客网链接!肯定有coding!
2.基础知识一定要扎实!这个后面我会推荐一本书,自测数据分析面试很有用!
3.其实面试官的反应就已经可以判断这次面试的结果了,眼缘真的很重要!
8.2 字节跳动 一面 1h30m
为了抖音这次面试准备了好久好久,结果面完了还是感觉还是准备不充分,光准备coding了,没准备基础知识,但这次考的内容,我后面推荐的那本书都有,大家可以参考!
1.自我介绍
2.实习经历(因为七月中旬已经在奇虎360数据分析实习了,并且自己负责了一个项目,完成了60%左右了,这次面试是入职前约好的)我介绍了整个项目的构思,拆分维度选择,特征工程选择等等,因为自己负责的,所以很清楚,面试官也表示这个项目很不错,我确实讲的很清楚!
3.数据挖掘项目经历 问了项目的特征工程和模型选择,也解释的很清楚,每个细节都很详细
4.bagging和boosting的区别?卧槽?我当时懵逼了,面完试才知道是随机森林和GBDT换了名字我就
反应过来
5.决策树的定义?懵逼+1
6.二分类,AUC和ROC区别?懵逼+1!大概说出来了
7.假设检验定义?以及一类错误和二类错误等概念
8.辛普森悖论
9.正态分布和中心极限定理
10.power=1-贝塔什么的?答案是增大样本量
11.XG boost和GBDT区别?以及优势
12.业务题:最常用App—抖音!业务构成?
13.直播指标拆解!以及收入构成?怎么提高
14.昨天GMV降低什么情况?(后面面试官说套路答题不太好,毕竟To C节奏很快,PEST不适合等等)
15.coding:最近一次直播打赏时间等?窗口搞定
16.coding:简单的算法题,知道思路但太久没用Python写算法了,不会,给面试官讲了思路
17.反问:对我的评价
1.实习有项目,确实很清楚,但360不算纯互联网,所以参考意义不大,我们是ToB,节奏慢一点
2.基础知识薄弱!(我反省)
3.业务题是模版套路答题,但是不可避免,ToC节奏快,PEST不适合
部分大厂数据分析汇总
7.2 北京奇虎360 一面(30M)
1.自我介绍
2.项目经历+成果
3.到岗时间+实习时长
4.我会的技术+我能做的事情
5.反问:日常的工作等
这一面面试官有跟我说日常的工作很基础,问我介意嘛?我特么现在啥都没有,我介意个锤子,让我去搬砖都行哈哈哈!
7.5 360 二面 leader面(30M)
1.自我介绍
2.项目经历+成果
3.给了一个场景,问我可不可以实现这个需求,我结合项目经历给出了我的思路,并且表示可以实现(到岗后负责的就是这个项目!)
4.实习时间+到岗时间
5.反问:工作内容+上班时间+待遇福利
这一面leader直接就说等会HR会跟我谈薪资等,第一次感觉自己有机会了哈哈哈!因为目的性很强,需要我去完成那个需求,所以可以实现就可以,360面试很务实,你能干活就来,干不了算了!很实在!开心!
8.16 滴滴 一面
一面前有一套SQL笔试题!题的质量很高!
一面(1H)
1.自我介绍
2.实习经历
3.360负责的项目:项目目的+分析过程+项目结论+改善业务全面叙述
4.数据挖掘项目:AUC的选择依据+XGBoost的叙述以及和GBDT等区别+ 特征工程的选择依据+项目成果!
(PS:具体说一下这个项目吧,阿里天池的O2O优惠券预测项目,主要就是XGBoost+特征组合+AUC!最终成绩 1000/20000,前5%水平)
5.假设检验:还是怎么证明一个人优不优秀!
6.在360负责的日常事务性工作
7.GMV和DAU下降的原因
8.最常用的App:抖音业务拆解+我认为的滴滴对比曹操打车的业务拆解
9.为什么想换一份实习
10.最快到岗时间+实习时长+目前Base哪里?
11.约了二面的时间!(我特么第一次在一面的时候面试官跟我约二面!!!)
12.反问:由于比较兴奋,直接啥都不问了!说了拜拜!毕竟下一场面试要开始了哈哈
8.16 京东 一面
一面 (1H)
1.自我介绍
2.实习经历
3.360项目经历:依旧拆解说了很久
4.数据挖掘优惠券项目:问的都差不多
5.SQL两道题 都很快完成了
6.360实习日常工作+为啥想换实习
7.约了二面时间???(幸福来的太突然!)
8.反问:日常事务性工作+薪资+福利
9.面试官也是实习生所以就开始聊人生
这个面试官面试的气氛也很棒,也是谈笑风生那种,感觉人很nice,但是后面聊了日常工作发现和360干的几乎一模一样!?相当就是换汤不换药,而且必需八月底入职,最后跟面试官表达了我的想法,放弃了2面的机会,因为约了二面再不去就浪费彼此的时间了,所以京东也就止步于此了!遗憾!不过和面试官也成了朋友,都是很优秀的人!值了!谜一样的一个晚上,明晚继续!冲!
8.17 百度 一面
8.17 19:00
一面(1H)
1.自我介绍
2.实习经历
3.360项目拆解:同上
4.数据挖掘拆解:同上
5.业务:
平时用百度网盘吗?百度网盘+一刻相册!
充过会员吗?一年充一次,一次传一年!
百度网盘的业务构成?会员来源拆分
收入来源?主要是会员尤其SVIP
怎么提高收入?用户画像!结合优惠券项目的思路
怎么营销?捆绑销售百度网盘会员+腾讯视频等会员
怎么找目标用户?用户画像+打标签+用户生命周期
等等(单纯即兴发挥,第一次面商业数据分析,有点陌生,不过答的都在点上!)
6.为什么想来百度?为什么选择商业数据分析?
7.介不介意做基础的工作?(不接触建模算法等,似曾相识?)
8.考虑转正吗?为什么现在找实习?
9.最快到岗时间+实习时长
10.约了二面时间?!(卧槽!?
11.反问:工作日常+Base
8.23 百度 二面
二面(30M) 17:00 leader面
1.自我介绍
2.项目经历+实习经历
3.为什么想来百度?对网盘商业化的理解
4.业务:给出场景,分析网盘怎么商业化才能获得最大的收入?结合用户画像+用户生命周期+捆绑营销+百度网盘和一刻相册用户的不同和功能不同给出了一套方案思路
5.对网盘以后商业战略的思考?以及给出思路!结合前面说的结合知乎和在360怎么ToB营销给出了思路!
6.分享一个有趣的事情给面试官?卧槽?给我整懵逼了!我自己就很有趣哈哈哈
7.考虑转正吗?实习时间+到岗时间?
8.然后说HR会找我聊?!卧槽!幸福的感觉!
9.如果接了实习Offer来了可以加转正三面
10.反问:转正难度?看个人表现
8.23 滴滴 二面
二面(30M) 21:30 leader面 死亡时间!面试官太忙了,刚开完会就来面试我了!
1.自我介绍
2.项目经历+实习经历
3.XGboost和AUC以及特征工程等等
4.平常怎么处理工作上的问题?TAM模型和需求分析
5.实习时长+到岗时间+是否考虑转正
6.后续HR联系!啊哈!习惯了哈哈
7.反问:日常事务工作等等
3.数据分析校招面试题
- 由于自己没参加秋招,所以到时候去收集一些今年的校招面经,来拆解分析一下,就当提前准备了!
腾讯 数据科学&数据分析
8.20 腾讯 数据科学 一面 1h
我最期待的面试了!第一次面试腾讯!其实上面三家6月都面试过,只不过都挂了!腾讯之前简历估计都没过!这次真是走了运了!哦耶!
1.自我介绍
2.项目+实习经历:就还是上面的
3.SCI论文发表的期刊+几作+我负责的部分+论文整体的思路+ 论文成果+国家专利内容+详细介绍了论文和专利用得到知识和技术!
(我人都傻了,我面了二十多轮,这还是第一次被问到论文和专利,这面试官是真的狠,机器学习算法全都懂,差点没了)
4.详细问优惠券项目:Xgboost和Auc等等算法细节以及参数构成与设置!并且说出选择的依据,以及优化空间等!
5.开始coding:一套一百分的SQL卷子,在线完成,参考正确率和完成速度!基础知识比较low,但是后面的六道大题全部都写出来了,谢天谢地!
6.实习时间+到岗时间+Base哪里
7.反问:主要工作+对我的评价
1.项目经历和实习经历很好确实是自己做的有理解
2.论文和专利虽然参与的不多,但是也知道来龙去脉
3.SQL基础知识薄弱,但是实际操作达标
2021.10.22 腾讯 数据科学 二面 导师面 90min
因为实习面试不是导师面试的,所以导师亲自面了一轮技术面,因为编码能力平时实习中他很肯定,所以就是八股文;
这次面试是突击检查,前一秒还在做需求,突然叫过去面试,已经两个多月没准备过面试了,所以八股文忘得差不多,只能说个大概、、、
1.自我介绍(第一次正式给导师自我介绍哈哈哈);
2.概率论:假设检验,P值,正态分布,ABtest,就是概率论所有基本知识,导师金融出身所以问的很深,结果我只能说个大概;
3.机器学习:也是从头到尾过了一遍,每个都是结合现实场景进行建模,什么算一下KFC第二天要准备多少炸鸡库存,具体问的东西在我写的博客里面都有,机器学习能问的就那麽多,都会了肯定没啥问题;
4.数据分析&商业分析:分析科兴科学园一天的人流等,消费规模等宏观问题,类似估算费米问题,博客里面也有;
因为实习中他都知道我的水平,所以其实没有像一般面试那么正式,主要为了测试我的基础知识,他跟我说基础知识忘得差不多了,让我回去好好准备2面吧,导师还是很肯定我的能力的所以就放水了;
2021.10.27 腾讯 数据科学 三面 组长面 60min
也是突然就让我去面试,很突然,然后就开始了;组长商业分析出身,所以问的也和一般的数据科学问题不一样;
1.自我介绍(第一次和组长交流);
2.实习经历:我讲了360的项目经理评分模型;
3.为什么要设计模型:我回答的是为了更主观给出评分,但后来我才知道大部分的模型都是为了提高效率,因为对于一个人的评价,没有人比了解他的人更准确,但是人力成本很高,所以才需要用模型批量化处理,模型更多的为了提高效率;
4.怎么判断一个主播是好主播:当时并不了解业务,所以答非所问。现在大概的一个思路是构建主播评价维度,大概是语言维度,外貌维度等,来综合评价,这个问题后来也是一个项目,但最后失败了, 问题就是一个主播的质量好坏,任何模型都没有专门找一个人去看他直播来判断精准;
5.触达率问题:可以类比成DAU降低的问题,关于触达率的定义大家可以去看看,我当时一听就蒙蔽了,答非所问;后来也想到了,类比成运营商发短信给用户,100条信息只有80条成功发送出去,触达率80%,所以跟用户是没什么关系的,主要是信息传递的过程出了问题,例如中间哪个中转站出了问题,手机没有信号,等等原因;
6.深圳有多少量出租车:典型费米问题,这种问题还是需要专门练一下的,当时第一次听到,蒙蔽+1。现在看来最简单的解法=深圳人口*每人每月平均花费在打车上的费用=出租车数量*出租车司机月收入,收入平衡可以最直接的解出这个问题,但是还是推荐大家从最基本的方法去学习吧;
7.当场挂了。。。跟我说我分析能力还是太浅,需要再学习,芭比Q了。。。
2021.12.21 天美某工作室 数据分析 一面 60min
1.自我介绍
2.日常实习的内容:日常对接各组的取数需求,并做基本分析;扩展问题:为什么产品和运营需要你帮忙取数?后来的答案:专业的人做专业的事!
3.介绍一个实习项目:介绍了主播挖掘的项目,这个项目和面试官之前的项目很相似,面试官这个项目为当时部门省了几千万的花销,获得了内部的突破奖,但是毕竟我做的只是他的皮毛,所以就不多说了,下面的简历里面有大概的流程,整个项目每一个细节面试官都会细问,根据是什么,数据结果是什么?最后面试官说他听到我说这个项目很感兴趣,以为会有新的创意,但我说的一塌糊涂,他很失望。。。当时心里一阵凉
4.游戏经历:是否玩过FPS游戏?使命召唤?我:玩的比较少。。。(面试工作室如果不了解工作室的游戏,就芭比Q了,之前不懂),面试官就说那就没啥聊的了。。。
5.30min当场挂了;但是面试官剩下的30min还是很热心给我一点一点指出问题和改进措施,具体如下:
1.面试时说的项目一定要是一个落地的项目,一定不要把做到一半或者没有结果的项目拿出来说,即使这个项目很棒,如果面试官问道答不上来会很减分,一定要说自己拿手熟悉且有成果的落地项目;
2."做热爱的事情,眼神里是有光的":面试所有的游戏工作室,最基本的一点一定是要熟悉该工作室的游戏,最加分的是表现出热爱,热爱并不是你技术有多高,而是陈述要让别人知道你真的是热爱!工作室天天和同一款游戏打交道,如果不热爱,工作也会很无趣!
3.明知山有虎,偏向虎山行:实习生分类:他的眼里有三种实习生——1.只会被动接受工作,例如取数;2.会主动去做工作并有一定的思考,例如取数后可以进行分析;3.有能拿得出手的漂亮的成果,例如一个完整参与的落地的项目(面试官说这第三种很少见,但是不是没有);他希望我能够朝着第三种去努力,他知道一个实习生要能做出一个落地的项目有多难,但是如果你做出了一个完整的落地项目,你一定可以找到自己喜欢的工作;所以,面试官当场把整个项目给我拆解了,给我指点了项目的缺口与优化措施,并主动提出会帮我把这个项目完成,有任何困难他会帮助我,真的是遇贵人了!!!他一再鼓励我要完成这个项目来给自己加分
2022.01.12 天美某工作室 数据分析 一面 60min
1.自我介绍
2.日常实习的内容:这次说的就不是简单的取数了,而是协助数据工程的同学开发分布式数据仓库,之前取数取完就完了,现在要开发仓库,让以后的同学取数能够更加快速便捷,前人栽树,后人乘凉的事情;然后对接各部门的分析需求;
3.实习项目:这次把最拿手的项目拿了出来;面试官听完后问:为什么分析结果出来后,没有去解决?因为我们是开发组,我们负责专业的分析,落地解决是运营负责的,但是面试官仍然追问我自己的想法,我就说出了针对内容缺口去进行潜力主播挖掘(上次芭比Q的项目,这次吃透了拿来说了)
4.针对实习项目扩展问题:1.如何评估成本和收入?LTV和CAC模型去评估,然后把这个分析项目展开讲了一下;2.内容缺口导致留存率降低,如何归因?结合广告归因的分析讲解,单一因素归因并不能确定留存率降低的因素,需要考虑外在的因素和内在的因素,例如内部问题触达率(上次芭比Q的问题)和外部问题节假日等;
5.一道SQL题:对于写了五个月SQL的我,直接口述就结束了;
6.游戏经历(高光时刻):面试官说看了我的简历上的游戏经历,说我玩了这麽久游戏,让我评价一下工作室的一款游戏(类似MOBA),这里就不扩展讲了,因为这个IP的游戏我玩了16年,确实对我来说很简单;然后问我如何从数据方面对王者荣耀单局游戏体验进行数据分析,我大概从三个维度去讲——战略,战术和战斗,每个维度如何用数据去展现,战术举例"养猪流"和"推塔流";战斗从五个维度去看——资源,属性,时长,战斗模式和地图机制等去多维度评析,最后结合王者荣耀的心流体验进行分析,和自己日常实习进行结合,我个人感觉答得很好;面试官也说游戏没白玩哈哈;
7.现在的情况:问我为什么还在实习不找工作,我说之前像留学,就没秋招,所以现在还在实习,然后面试官就说不用担心,他们如果感觉我合适的话,会帮我去走安排流程,让我不用想太多;
8.反问:评价本次面试:实习的项目很不错,有落地成果也有自己的思考;对于游戏的理解很深刻,看得出来是热爱;面试的不足:希望以后有想法可以去实现,而不是停留在想法;然后我就补充了一句:其实我说出来的想法,都已经自己初步验证过是可行的了,并说出那句用数据说话,不要纸上谈兵,我说就想现在这样我敢来面试天美工作室一样,知道工作室要求很高,不去拼一把肯定没机会,所以我选择去拼一把,明知山有虎,偏向虎山行!
3.1 业务题
3.2 SQL&Python
3.3 开放题
4.腾讯实习的日常工作
- 给大家分享一下日常实习都在干嘛,放心肯定不会涉密哈哈哈!
4.1 来自产品的取数需求
- 按产品的要求给他们取出数据,并可视化交付
4.2 来自产品的分析需求
- 相关性分析,脑子分析不出来就上机器学习模型去数据挖掘
4.3 来自开发的开发需求
- 需要把数据库中的埋点数据清洗后写脚本导入后台管理端
4.4 来自商业分析的取数需求
- 按商业分析的要求给他们取出需要的数据,然后可视化交付
4.5 来自boss的分析需求
- 一般都是根据业务痛点进行数据分析,然后涉及到预测或者分类问题的话,直接上模型数据挖掘
4.6 重中之重:熟悉业务——看直播
- 不熟悉自己的业务,很难做出有价值的分析,有的时候为了一个了解一个需求,可能得有目的性的看一下午的直播,看几百个主播的直播,边工作边看直播已经是工作常态,也是必不可少的一步
总结一下:
- 用到的都是Hive SQL(90%)和Python的机器学习(10%),因为数据库的数据量很大,所以一般大部分时间都是在等待数据,期间都是构思模型或者进行直接分析;
- 数据分析是很需要经验的过程,要不然深度不够,分析出来的结果价值不大;
- 数据挖掘也是要在分析的基础上进行特征工程的构建,要不然有模型也发挥不出来作用