mounike

分类

Hadoop(1) hive(6) kafka(1) MySQL(2) shell(2) spark(5) spider(1) UserPortrait(1) VMware(1) Yarn(1) 资料汇总(1)

/ 注册

全部文章（共22篇）

spark程序远程连接mysql数据库报错

Exception in thread "main" java.sql.SQLException: null, message from server: "Host '192.168.1.121' is not allowed to connect to this M...

2020-07-13

0 704

Vmware 打不开vmx文件

问题介绍：这几天在vmware上操作Linux系统，不知怎么的就开不了机器，开机按钮都是灰色的，点击vmx文件也没有任何提示和反应，截图如下：在选中右边机器名称，右键如图：在继续找到vmx文件，点击vmware打开依旧没什么反应，很恼火。不可取的的解决方式: 1 卸载重新安...

2020-07-13

0 961

Hive学习笔记(一)——原理和体系架构

目录一 hive是什么？二为什么会出现hive？三 hive 为什么适合数据仓库应用程序？四 hive与传统关系型数据库的比较五 hive的体系架构 hive体系架构的组成部分： 1 用户接口 2 跨语言服务 thrift server 3 Driver （底层） 4...

2020-07-13

0 977

Hive学习笔记（二）——数据模型

一 hive 的五种数据模型 1 内部表 1）创建内部表相当于MySQL的表默认存储为的HDFS的目录 /user/hive/warehouse create table emp (empno int, ename string, job string, mgr i...

2020-07-13

0 646

Hive学习笔记（三）——shell命令行

1 hive与非交互式模式命令行 hive -e：从命令行执行指定的HQL，不需要分号： hive -e ‘select * from dumy limit 100’ >a.txt hive -f :执行HQL脚 hive -f /home/my/hive-scr...

2020-07-13

0 1059

Hive学习笔记（四）——优化篇1

HiveQL的调优对于经常使用HQL做数据开发的弟兄来书是很有必要去了解的，学习hive背后的实现细节，如何更加高效的使用hive，我想这也是很有必要了解的。无论是在面试中还是在开发过程中都会起到很大的作用。此处使用的hive版本为：2.3.0 1 使用EXPLAIN explain可以打印出...

2020-07-13

0 1173

yarn运行原理

yarn运行的基本原理（yarn2.0）客户端向yarn提交运行程序。 ResourceManager向NodeManager分配一个container,在container中启动ApplicationMaster。 AppMaster向RM申请运行程序的资源（cpu，core，m...

2020-07-13

0 517

Hive学习笔记（五）——优化篇2

七 JOIN优化大小表优化大小表优化指的是在2张或2张以上的表进行join的时候，要保证连续查询中的表的大小从左到右依次是增加的。这样hive会将小表保存到内存中，Hive 可以在map端执行连接的过程，与内存中的小表进行逐一篇匹配，从而省略掉常规操作所需的的reduce过程。第一种写法...

2020-07-13

0 679

SparkStreaming中WAL容错机制

1 什么是WAL？ wal（write ahead logging）预写日志系统。就是提前备份元数据信息和数据。总体上来看： WAL系统是一个存储系统，它可以存储和接受数据。有时间属性和索引属性。看源码介绍: 在sparkstreaming中冷备应用图示介绍表示接受数据，接受...

2020-07-13

0 723

spark远程运行找不到winutils

错误如下图所示：下载呢对应hadoop版本的地址： https://github.com/4ttty/winutils 改错：将hadoop添加进windows系统的环境变量如果还是报错，记得添加这句代码： System.setProperty("hadoop.home.dir...

2020-07-13

0 484