面的应该是京东负责商品定价策略的组。

一、 初试—单面(40min)
1、 自我介绍
2、 数据挖掘和机器学习的区别
3、 第一份实习中,建模的流程(讲了一遍数据描述——清洗——建模——数据集平衡——调参之类的),怎么特征筛选的,随机森林和Xgboost有什么区别,Xgboost前一棵树影响后一棵树是在哪个地方影响的?
4、 第二份实习中评价指标是什么?A/Btest怎么做的,有没有用检验?A、B组之间的数据差异?
5、 统计学中的假设检验有什么,有什么特点?应用场景是什么?
6、 回归中有哪些检验,F检验和t检验在回归中有什么区别,t检验公式
7、 正则化了解么,但我不会
(统计学还问了不少别的,我忘记了)
8、 写一个SQL,取每门课最高分和学生的名字(我用了row_number() over())
9、 可不可以来实习
10、 有什么问题问他,我问他部门是做什么的、怎么捞简历(因为我之前面过京东的另一个部门套路完全不一样)
11、 问我喜不喜欢做研究:这个部门中有算法、分析等三个方向,部门中有不少博士

ps.我不是统计学背景的,统计学知识好多不是特别熟悉,答的有点差。

二、 复试——单面(20***要就挖了简历,不是很难

  1. 自我介绍
  2. 讲我目前在做的这份实习,用什么系统(oracle),我主要做了什么。
  3. 我目前做的这份实习中建模过程中遇到了哪些问题?(数据清洗和调参)
  4. 随机森林和Xgboost有什么区别
  5. Xgboost和一般的boosting算法有什么区别,做了哪些优化?
  6. 我的两份实习一个是纯数据分析,一个是数据清洗+建模+部署全过程,我更喜欢哪种
  7. 讲我在学校做的项目(面试官评价:这个和你的两个实习完全不是一个套路啊)
  8. 会不会用spark(我实习只涉及到oracle和hive)
  9. 有什么问题问他:我问他做这份职业需要什么能力,以及他认为我可以在部门中做什么方向(他说有纯数据分析,也有类似研究课题,看我更喜欢哪一个)