1.自我介绍
2.介绍一个比较有挑战性的项目以及你在其中的贡献,项目实现所用到的语言和工具
3.针对项目:xgboost的基本原理
4.对hive的认识
5.数据倾斜的原因和解决方法
6.算法题:一个数组,其中有一个数出现的次数超过数组长度的一半,找到这个数,尽可能减少时间和空间复杂度
7.会spark吗
8.提问环节
在图书馆的研讨室面试的,中间还被投诉过声音太大,数据倾斜前几天还复习过,今天忘得差不多了(hive里面的参数真的好难记啊),算法题的空间复杂度没有达到要求,spark也不会,应该凉了吧