JamesZh

未归档

/ 注册

全部文章 / 未归档（共143篇）

《Redis开发与运维》学习笔记--Redis持久化

本文是《Redis开发与运维》的学习笔记。内容大部分摘自此书。众所周知，redis是内存数据库，它把数据存储在内存中，这样在加快读取速度的同时也对数据安全性产生了新的问题，即当redis所在服务器发生宕机后，redis数据库里的所有数据将会全部丢失。为了解决这个问题，redis提供了持久化功能—...

2018-10-21

0 503

HDFS笔记

按照官方文档的架构一节，进行整理和扩充。同时借鉴网上的一些资料。先对HDFS有个整体上的认知，后面的具体细节再通过源码去看。声明：本文是基于Apache Hadoop 2.9.1文档进行总结的。架构 ...

2018-10-17

0 516

Scala学习笔记

这篇文章是我跟着视频学，再加上看博客总结的Scala关键知识点，用来开发Spark完全够用。第一节：基础变量声明 var val 七种值类型（Byte，Char，Short，Int，Long，Float，Double）条件表达式 val y = if (x>1)...

2018-10-15

0 631

Hive数据倾斜与解决办法

数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候，某些节点的计算能力比较强或者需要计算的数据比较少，早早执行完了，某些...

2018-10-15

0 912

Hive优化方法

①join连接时的优化：当三个或更多的表进行join连接时，如果每个on使用相同的字段连接时只会产生一个MapReduce job。 ②join连接时的优化：当多个表进行查询时，从左到右表的大小顺序应该是从小到大。原因：hive在对每行记录操作时会把其他表先缓存起来，直到扫描最后的表进行计算。 ...

2018-10-14

0 626

深入分析Kafka高可用性

本文主要内容： ①kafka复制机制 ②分区leader副本宕掉怎么选新的leader ③高水位与leader epoch的详细分析。 ④一些相关配置 Kafka复制机制 Kafka的主题被分为多个分区，分区是基本的数据块。分区存储在单个磁盘上，Kafka可以保证分区里的事件是有序的，分区可以在...

2018-10-13

0 671

（树）剑指offer--对称的二叉树

描述：请实现一个函数，用来判断一颗二叉树是不是对称的。注意，如果一个二叉树同此二叉树的镜像是同样的，定义其为对称的。就是递归。 public class Solution { boolean isSymmetrical(TreeNode pRoot) { i...

2018-10-09

0 390

Zookeeper的问题整理

持续更新~~~~ Zookeeper典型应用场景有哪些？ ZooKeeper是一个高可用的分布式数据管理与协调框架。基于对ZAB算法的实现，使该框架保证了分布式环境中数据的一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。典型场景：数据发布与订阅（配置中心）发...

2018-10-06

0 885

（转）ZooKeeper原理与应用

转自：https://www.jianshu.com/p/84ad63127cd1 作者：Jeffbond 简介 ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。ZooKeeper的设计目标是将那些复杂且容易出错的分布式一致***封装起来，构成一...

2018-10-06

0 647

Hive常用的SQL命令操作

转自https://blog.csdn.net/wisgood/article/details/17186599 1、表相关SQL操作 1.1、创建内部表 CREATE TABLE table_name (name string); 1.2、创建内部表,并指定分区字段 CREATE TAB...

2018-10-01

0 704