第4章 Spark Core RDD编程

常用的Transformation算子



sortByKey


union

distinct


结果就是partition中少了一个1,其他不变

join,需要K-V类型的RDD
普通的join就是inner join,得到两者都有的

leftOuterJoin
以左表为基准

rightOuterJoin
以右表为基准

fullOuterJoin
全部显示出来

常用的Action算子


collect count take max min sum

reduce foreach
foreach类似map的操作,但是foreach是action操作

RDD编程案例实战

  1. 词频统计

    代码示例


    集群提交


如果输入的是文件夹并且文件夹下面有4个相同的txt


再来测试一下将结果写入文件系统



  1. Top N



集群提交


3. 平均数案例