Melo丶
Melo丶
全部文章
spark
Git(1)
LeetCode(76)
MySQL(1)
Python知识点(8)
sklearn(1)
Tensorflow(5)
数据挖掘(1)
爬虫(1)
算法和数据结构(143)
归档
标签
去牛客网
登录
/
注册
Melo都会点什么
北邮本硕,算法转开发
全部文章
/ spark
(共15篇)
【Python3实战Spark大数据分析及调度】第7章 Spark Core调优
History Server Spark的UI界面端口默认4040,只能在Application运行的时候维持。 修改参数使得spark保存运行日志和UI界面,端口改为18080 位置 改完之后的UI界面 序列化 序列化的作用:Shuffle的时候需要进行网络传输时,需要将数据序...
2020-09-18
0
530
【Python3实战Spark大数据分析及调度】第8章 Spark SQL
Spark SQL 前世今生 Spark SQL是Spark上运行SQL的模块 Hive on Spark是在Hive的基础上添加了Spark的执行引擎 两者是不同的 metastore,元数据,比如表的名字、表存在的位置、有哪些字段、顺序类型等等。存储在MySQL里面。好处是在Hive创建了...
2020-09-18
0
711
【Python3实战Spark大数据分析及调度】第9章 Spark Streaming
Spark Streaming 概述 Spark Streaming 是Spark Core的扩展,能够水平扩展,高吞吐量,有容错机制的进行对实时数据进行流处理。 能够对接Kafka(常用),Flume等中的数据 处理的数据能够写到文件系统,数据库或者dashboard上 因为Spark Stre...
2020-09-18
0
701
【Python3实战Spark大数据分析及调度】第10 11章 Azkaban基础/实战篇
Azkaban 基础篇 工作流概述: 请假、借款 JavaEE:jBPM、Activiti 工作流调度系统的重要性 crontab的问题和优势: 对于定时调度能够很好的执行,但是对于依赖调度束手无策,只能够估计时间 常用的调度框架: Azkaban LinkedIn开源...
2020-09-18
0
544
【Python3实战Spark大数据分析及调度】第13章 项目实战
企业级大数据开发流程 企业级大数据应用 企业级大数据分析平台 目的和分析 获得数据价值 离线和实时 1)商业 2)自研 数据量预估及集群规划 一条日志300~500字节,一天1000w访问量,一个人访问5次,每天访问5个页面 DN:DataNode数量 NN:NameNo...
2020-09-18
0
889
首页
上一页
1
2
下一页
末页