第4章 Spark Core RDD编程
常用的Transformation算子
sortByKey
union
distinct
结果就是partition中少了一个1,其他不变
join,需要K-V类型的RDD
普通的join就是inner join,得到两者都有的
leftOuterJoin
以左表为基准
rightOuterJoin
以右表为基准
fullOuterJoin
全部显示出来
常用的Action算子
collect count take max min sum
reduce foreach
foreach类似map的操作,但是foreach是action操作
RDD编程案例实战
- 词频统计
代码示例
集群提交
如果输入的是文件夹并且文件夹下面有4个相同的txt
再来测试一下将结果写入文件系统
- Top N
集群提交
3. 平均数案例