老胖鱼头
老胖鱼头
全部文章
大数据相关
Java工程师面试1000题(15)
Java面试1000题(19)
Leetcode(5)
Spark(2)
Spring(1)
Spring系列(3)
未归档(29)
经验记录(2)
归档
标签
去牛客网
登录
/
注册
老胖鱼头的博客
全部文章
/ 大数据相关
(共18篇)
SparkSQL实战8——综合实战完成日志分析4
需求、按流量统计主站最受欢迎的TopN课程并保存到MySQL 创建一张表: create table day_video_traffics_topn_stat( day varchar(8) not null, cms_id bigint(10) not null, traffics bigi...
2019-03-12
0
382
SparkSQL实战6——综合实战完成日志分析2
需求、统计最受欢迎的topN课程 import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.sql.functions._ /** * @author YuZhansheng * @ d...
2019-03-12
0
511
SparkSQL实战5——综合实战完成日志分析1
1、离线处理架构图: 2、数据处理流程: 数据采集:使用Flume采集web日志信息到HDFS中去 数据清洗:将脏数据清理,使用Spark、hive、MapReduce等分布式计算框架 数据处理:按照我们的需要进行相应业务的统计和分析,使用Spark、hive、MapReduce...
2019-03-11
0
531
SparkSQL实战4——外部数据源API
1、产生背景 每一个Spark应用程序往往都会以加载一个数据源开始,保存数据结束。为了让用户可以方便地从不同的数据源(json、parquet、rdbms),经过混合处理(json join parquet)再将处理结果以特定的格式(json、parquet)写回到指定的系统(HDFS、S3等)上...
2019-03-07
0
471
SparkSQL实战3——DataFrame和Dataset
1、前言 DataFrame并不是Spark最新提出使用的,DataFrame最早是在R、Python语言中使用的。 Dataset是一个分布式的数据集;而DataFrame是一个以列(包括列名、列的类型、列值)的形式构成的分布式数据集,并且按照列赋予不同的名称。在概念层次上,我们可以把Data...
2019-03-06
0
457
SparkSQL实战2——先了解几个基础知识
前言:Spark的用户有三种不同的API可以与分布式数据集合进行交互:RDD API、DataFrame API、Dataset API。传统的RDD API提供了类型安全和功能强大的lambda函数,但是没有对性能进行优化。Dataset API和DataFrame API提供了更简单的方法来使用...
2019-03-04
0
374
SparkSQL实战1——先从Hadoop开始说起
1、Hadoop概述 广义的Hadoop,指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,狭义的Hadoop指的是Hadoop框架,Hadoop框架是Hadoop生态系统最重要最基础的一个部分,生态系统中的每一子系统只解决某一特定的问题域,不搞统一型的全能系统,而是小而精的多个...
2019-03-01
0
1889
Spark Streaming实时流处理项目11——综合实战
Spark Streaming实时流处理项目1——分布式日志收集框架Flume的学习 Spark Streaming实时流处理项目2——分布式消息队列Kafka学习 Spark Streaming实时流处理项目3——整合Flume和Kafka完成实时数据采集 Spark Streaming实时...
2019-02-27
0
546
Spark Streaming实时流处理项目10——日志产生器开发并结合log4j完成日志的输出
Spark Streaming实时流处理项目1——分布式日志收集框架Flume的学习 Spark Streaming实时流处理项目2——分布式消息队列Kafka学习 Spark Streaming实时流处理项目3——整合Flume和Kafka完成实时数据采集 Spark Streaming实时...
2019-02-25
0
951
Spark Streaming实时流处理项目9——Spark Streaming整合Kafka实战
Spark Streaming实时流处理项目1——分布式日志收集框架Flume的学习 Spark Streaming实时流处理项目2——分布式消息队列Kafka学习 Spark Streaming实时流处理项目3——整合Flume和Kafka完成实时数据采集 Spark Streaming实时...
2019-02-23
0
1052
首页
上一页
1
2
下一页
末页