Spark-RDD函数详解
1.隐式转换后的类
- PairRDDFunctions:(pair对)该扩展中的方法汇总输入的数据单元是一个包含2个元素的元祖结构.spark会把其中第一个元素当做key,第二个当成value
- DoubleRDDFunctions:这个国战类包含了很多数值的聚合方法,如果RDD的数据单元能够隐式变换成scala的double数据类型,则这些方法会非常有用
- OrderedRDDFunctions:该扩展类的方法需要输入的数据是2元元祖,并且key能后排序
- SequenceFileRDDFunctions:这个扩展包含了一些可以常见Hadoop sequence问价你的方法,输入数据必须是2元元祖.但需要额外考虑到元祖元素能够转换成可写类型.
2.基本转换
Transformation算子可以分为:value数据类型和key-value对数据类型.value数据类型的算子封装
© 版权声明
文章版权归作者所有,未经允许请勿转载。