还是第一次的小姐姐面。感觉不算二面吧,应该算是一面的后序。前两天面的,过程有些记不清了。

  1. 还是问了问项目,后面被怼了,说我没什么实际的项目经验。

  2. 这次偏重于问技术选型,比如为什么你的项目里要用SparkSQL进行离线数据分析而不用Hive。
    中间根据回答问了Spark SQL为什么比Hive快。 为什么既要用flume又用kafka,你的flume是什么作用,日志收集的话为什么不直接去掉,用kafka。

  3. 了解Flink么?Flink和Spark Streaming区别。

  4. 为什么你的数据存储要用HBase而不用Mysql?

  5. 数据仓库有了解过么?

  6. 还是排序算法,时间复杂度,思路,稳定性。

  7. 海量数据处理的问题, 很大的一个数组,里面有重复数据,如何找到重复数字的第一次出现位置。

  8. 面完之前说,后面有一个同事会给我发笔试题。是两道实际场景的SQL题。一个是交流拥堵的问题,另一个是根据用户访问商品日志统计PV , UV 的问题。

回答的不好,感觉凉了。太菜