福大大架构师每日一题
福大大架构师每日一题
全部文章
福大大架构师每日一题
归档
标签
去牛客网
登录
/
注册
福大大架构师每日一题的博客
最新面试题,针对高级开发人员和架构师。内容是后端、大数据和人工智能。
全部文章
/ 福大大架构师每日一题
(共11篇)
2020-09-11:Hive的优化策略有哪些?
来自专栏
福哥答案2020-09-11: Hive调优及优化的12种方式1.请慎重使用COUNT(DISTINCT col)。可以考虑使用Group By 或者 ROW_NUMBER() OVER(PARTITION BY col)方式代替COUNT(DISTINCT col)。2.小文件会造成资源的多度占用...
hive
大数据
2020-09-11
3
648
2020-09-02:Sqoop的工作原理?
来自专栏
福哥答案2020-09-02: 答案来自此链接下图显示了Sqoop的工作流程: Sqoop导入导入工具将单个表从RDBMS导入到HDFS。 表中的每一行都被视为HDFS中的一条记录。 所有记录都作为文本数据存储在文本文件中,或者作为二进制数据存储在Avro和Sequence文件中。 Sqoop导出导...
大数据
2020-09-02
3
803
2020-08-24:什么是小文件?很多小文件会有什么问题?很多小文件怎么解决?(大数据)
来自专栏
福哥答案2020-08-24:知乎答案1.小文件:小文件是指文件大小明显小于 HDFS 上块(block)大小(默认64MB,在Hadoop2.x中默认为128MB)的文件。 2.小文件问题:HDFS的小文件问题:(1)HDFS 中任何一个文件,目录或者数据块在 NameNode 节点内存中均以一个...
大数据
2020-08-24
3
544
2020-08-18:介绍下MR过程?
来自专栏
福哥答案2020-08-18:来自【MapReduce执行过程及运行原理详解】 答案MapReduce执行的4个阶段,分别为Split阶段—> Map阶段 —> Shuffle阶段 —> Reduce阶段。
大数据
2020-08-18
3
0
2020-08-17:详细说下数据倾斜怎么解决?
来自专栏
福哥答案2020-08-17:数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 数据倾斜是指:mapreduce程序执行时,reduce节点大部分执行完毕,但是有一个...
大数据
2020-08-17
5
934
2020-08-16:数据任务是怎么优化的?(数据倾斜,参数相关调节)
来自专栏
福哥答案2020-08-16: 此答案【来自华为云社区】的【阿刚】 一 问题背景项目中遇到大数据任务执行时间比较长,需要进行优化,使得大数据的任务执行时间优化至客户可以接受的时间。 二 原因分析l 业务场景分析本场景下的大数据任务主要对数据进行mapreduce操作,该任务包含两个子任务,第一个子...
大数据
2020-08-16
3
572
2020-08-15:什么情况下数据任务需要优化?
来自专栏
福哥答案2020-08-16:知乎答案1.数据任务执行过慢,速度不能满足报表需求,例如每小时的报表,执行时间超过1小时了,第二小时的报表任务又来了。2.占用过多资源,跑这个任务的时候,整个集群的资源全被吃掉了,或者吃掉很多,影响了线上在线正常业务,这就非常需要优化。一般考虑先移出到其他集群,停止对线...
大数据
2020-08-16
3
637
2020-08-14:数据任务的执行引擎用的哪些?
来自专栏
福哥答案2020-08-14: 知乎答案 最基础的是 crontab 定时任务。考虑到分布式分片定时任务和高可用,可以用elastic-job这样的框架。但是这样的框架无法处理复杂的任务依赖关系。大数据处理框架一般用的是DAG(有向无环图)工作流类调度系统,通过DAG图描述任务之间的复杂的依赖关系。...
大数据
2020-08-14
3
596
2020-08-13:Hadoop生态圈的了解?
来自专栏
福哥答案2020-08-13: 该项目包括以下模块:1.Common(公共工具)支持其他Hadoop模块的公共工具。 2.HDFS(Hadoop分布式文件系统)提供对应用程序数据的高吞吐量访问的分布式文件系统。 3.Mapreduce(分布式计算框架,地图还原)一个基于纱线的大数据集并行处理系统。 ...
大数据
2020-08-13
3
539
2020-08-12:数据仓库是怎么分层的?
来自专栏
福哥答案2020-08-12: 知乎答案一般都是分 ODS -> DW -> APP:ODS(Operational Data Store)就是将各种数据源的数据,经过清洗整理到这里的这一层。一般涉及各种ETL工具,我们用的时sqoop。DW(Data WareHouse),数据仓库层,...
大数据
2020-08-12
3
722
首页
上一页
1
2
下一页
末页