June1993

大数据

java基础(51) linux(3) spring(14) springboot(7) springmvc/mybatis(8) Tomcat/Jmeter(4) UML(2) 一些小工具(5) 分布式中间件(15) 前端(3) 多线程与并发编程(9) 数据库(19) 数据结构与算法(29) 未归档(12) 环境及一些报错问题(14) 综合(6) 计算机基础(4) 计算机网络(5) 设计模式(10)

/ 注册

全部文章 / 大数据（共9篇）

SparkSql学习

SparkSQL简介什么是SparkSQL：spark SQL是spark的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。 SparkSQL的作用：提供一个编程抽象（DataFrame）并且作为分布式 SQL 查询引擎 DataFrame：它...

2019-06-02

0 597

RDD基本操作

RDD的创建进行Spark核心编程时，首先要做的第一件事，就是创建一个初始的RDD。该RDD中，通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后，才可以通过Spark Core提供的transformation算子，对该RDD进行转换，来获取其他的RDD。Spark...

2019-06-02

0 744

spark系列一：spark的基本工作原理与RDD

目录 spark的基本介绍 Spark相比Hadoop MapReduce的优势： spark架构及生态：　　Spark的架构中的基本组件： spark的核心编程： RDD： wordcount程序以及原理分析前言：最近学习中华石杉老是的spark课程，并查阅了一些资料，将课...

2019-06-02

0 850

zookeeper入门

zookeeper的选举机制 1）半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。 2）Zookeeper虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader...

2019-05-30

0 704

ElasticSearch系列一（什么是ElasticSearch)

目录 es的安装与启动索引的相关操作快速查看集群中有哪些索引简单的索引操作创建索引：删除索引： ES的CRUD操作（1）新增商品：新增文档，建立索引（2）查询商品：检索文档（3）修改商品：替换文档修改商品：更新文档删除商品：删除文档几种搜索...

2019-05-27

0 937

hadoop入门

hadoop核心 1.HDFS: Hadoop Distributed File System 分布式文件系统 2.YARN: Yet Another Resource Negotiator 资源管理调度系统 3.Mapreduce：分布式运算框架 ----------------------...

2019-04-15

0 691

Kafka

1.kafka的基本架构 1）Producer ：消息生产者，就是向kafka broker发消息的客户端； 2）Consumer ：消息消费者，向kafka broker取消息的客户端； 3）Topic ：可以理解为一个队列； 4） Consumer Group （CG）：这是kafk...

2019-03-21

0 1409

Hadoop

1.hadoop1和hadoop2的区别 2.HDFS架构 1.NameNode:存储文件的元数据，比如文件名、文件目录结构、文件属性、以及每个文件的块列表和所在的DataNode等。 2.DataNode：在本地文件系统中存储文件块数据，以及块数据的校验和 3.SecondaryNa...

2017-08-25

0 639

分布式操作系统

1.什么是分布式操作系统分布式系统是若干独立计算机的集合，这些计算机对于用户来说就像是单个相关系统 2.分布式系统的优点 ①更经济—分布式操作系统有较高的性能价格比。 ②速度更快—分布式操作系统平均响应时间比大型机系统短。 ③分布式操作系统对固有分布性问题求解的适...

2017-06-09

0 902