Melo丶

spark

Git(1) LeetCode(76) MySQL(1) Python知识点(8) sklearn(1) Tensorflow(5) 数据挖掘(1) 爬虫(1) 算法和数据结构(143)

/ 注册

全部文章 / spark （共15篇）

【Python3实战Spark大数据分析及调度】第7章 Spark Core调优

History Server Spark的UI界面端口默认4040，只能在Application运行的时候维持。修改参数使得spark保存运行日志和UI界面，端口改为18080 位置改完之后的UI界面序列化序列化的作用：Shuffle的时候需要进行网络传输时，需要将数据序...

2020-09-18

0 603

【Python3实战Spark大数据分析及调度】第8章 Spark SQL

Spark SQL 前世今生 Spark SQL是Spark上运行SQL的模块 Hive on Spark是在Hive的基础上添加了Spark的执行引擎两者是不同的 metastore，元数据，比如表的名字、表存在的位置、有哪些字段、顺序类型等等。存储在MySQL里面。好处是在Hive创建了...

2020-09-18

0 780

【Python3实战Spark大数据分析及调度】第9章 Spark Streaming

Spark Streaming 概述 Spark Streaming 是Spark Core的扩展，能够水平扩展，高吞吐量，有容错机制的进行对实时数据进行流处理。能够对接Kafka（常用），Flume等中的数据处理的数据能够写到文件系统，数据库或者dashboard上因为Spark Stre...

2020-09-18

0 759

【Python3实战Spark大数据分析及调度】第10 11章 Azkaban基础/实战篇

Azkaban 基础篇工作流概述：请假、借款 JavaEE：jBPM、Activiti 工作流调度系统的重要性 crontab的问题和优势：对于定时调度能够很好的执行，但是对于依赖调度束手无策，只能够估计时间常用的调度框架： Azkaban LinkedIn开源...

2020-09-18

0 590

【Python3实战Spark大数据分析及调度】第13章项目实战

企业级大数据开发流程企业级大数据应用企业级大数据分析平台目的和分析获得数据价值离线和实时 1）商业 2）自研数据量预估及集群规划一条日志300~500字节，一天1000w访问量，一个人访问5次，每天访问5个页面 DN：DataNode数量 NN：NameNo...

2020-09-18

0 969