Spark-RDD函数详解

国内服务器4天前发布 beixibaobao

1.隐式转换后的类

PairRDDFunctions:(pair对)该扩展中的方法汇总输入的数据单元是一个包含2个元素的元祖结构.spark会把其中第一个元素当做key,第二个当成value
DoubleRDDFunctions:这个国战类包含了很多数值的聚合方法,如果RDD的数据单元能够隐式变换成scala的double数据类型,则这些方法会非常有用
OrderedRDDFunctions:该扩展类的方法需要输入的数据是2元元祖,并且key能后排序
SequenceFileRDDFunctions:这个扩展包含了一些可以常见Hadoop sequence问价你的方法,输入数据必须是2元元祖.但需要额外考虑到元祖元素能够转换成可写类型.

2.基本转换

Transformation算子可以分为:value数据类型和key-value对数据类型.value数据类型的算子封装

国内服务器

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

SpringBoot与RabbitMQ高效集成实战

SpringBoot与RabbitMQ高效集成实战

国内服务器

2周前

50

Zookeeper

Zookeeper

国内服务器

1周前

40

计算机大数据毕业设计hadoop+spark+hive电商数据分析大屏可视化推荐系统大数据毕业设计(源码+LW+PPT+讲解)

计算机大数据毕业设计hadoop+spark+hive电商数据分析大屏可视化推荐系统大数据毕业设计(源码+LW+PPT+讲解)

国内服务器

1周前

60

RabbitMQ 配置详解

RabbitMQ 配置详解

国内服务器

9小时前

20