Spark-RDD函数详解

1.隐式转换后的类

  1. PairRDDFunctions:(pair对)该扩展中的方法汇总输入的数据单元是一个包含2个元素的元祖结构.spark会把其中第一个元素当做key,第二个当成value
  2. DoubleRDDFunctions:这个国战类包含了很多数值的聚合方法,如果RDD的数据单元能够隐式变换成scala的double数据类型,则这些方法会非常有用
  3. OrderedRDDFunctions:该扩展类的方法需要输入的数据是2元元祖,并且key能后排序
  4. SequenceFileRDDFunctions:这个扩展包含了一些可以常见Hadoop sequence问价你的方法,输入数据必须是2元元祖.但需要额外考虑到元祖元素能够转换成可写类型.

​​​​​​​2.基本转换

Transformation算子可以分为:value数据类型和key-value对数据类型.value数据类型的算子封装

© 版权声明

相关文章