君一时一迈

读书笔记

Python学习笔记(1) SQL(1)

/ 注册

全部文章 / 读书笔记（共7篇）

11-基于MLlib的机器学习-1

MLlib的设计理念非常简单：把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。 MLlib引入了一些数据类型（比如点和向量），不过归根结底，MLlib就是RDD上一系列可供调用的函数集合。比如要用MLlib来完成文本分类任务（例如识别垃圾邮件），需要如下步骤：（1）首先用字...

2019-09-28

0 0

Spark Streaming 24/7不间断运行

Spark Streaming的一大优势在于它提供了强大的容错性保障。只要输入数据存储在可靠的系统中，Spark Streaming就可以根据输入计算出正确的结果，提供“精确一次”执行的语义。检查点机制检查点机制是我们在SparkStreaming中用来保障容错性的主...

2019-09-21

0 0

Spark Streaming-输入源

Spark Streaming原生支持一些不同的数据源。一些“核心”数据已经被打包到Spark Streaming的Maven工件中，而其他的一些则可以通过spark-streaming-kafka等附加工件获取。核心数据源所有的核心数据源创建DStream的方法都位于Str...

2019-09-13

0 0

Spark Streaming-转化操作

转化操作：DStream的转化操作可以分为无状态（stateless）和有状态（stateful）两种。 ·在无状态转化操作中，每个批次的处理不依赖于之前批次的数据。之前的RDD转化操作，如map（）、filter（）、reduceByKey（）等，都是无状态转化操作。 ·有状态转化操...

2019-09-06

0 0

Spark Streaming-构架与抽象

许多应用需要即时处理收到的数据，例如用来实时追踪页面访问统计的应用，训练机器学习的模型的应用，还有自动检测异常的应用。 Spark Streaming是Spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用，这样就可以大量重用批处理应用的技术甚至代码。 ...

2019-08-30

0 0

Spark SQL（三）

JDBC/ODBC Spark SQL也提供JDBC连接支持。JDBC服务器作为一个独立的Spark驱动器程序运行，可以在多用户之间共享。任何一个客户端都可以在内存中缓存数据表，对表进行查询。集群的资源和缓存的数据都在所用用户之间共享。 Spark SQL的JBDC服务器与Hive中的H...

2019-08-24

0 0

Spark SQL（二）

读取和存储数据 Spark SQL支持很多种结构化数据源，可以轻松从各种数据源中读取到Row对象。这些数据源包括Hive表、JSON和Parquet文件。此外，当使用SQL查询这些数据源中的数据且只用到部分字段时，Spark SQL可以智能地只扫描这些用到的字段。除此之外，还可以在程序中通过指...

2019-08-17

0 0