本文共 236 字,大约阅读时间需要 1 分钟。
1、Spark中的RDD是一个不可变的分布式对象集合。
2、两种方式创建RDD:读取一个外部数据集、在驱动器程序里分发驱动器程序中的对象集合。
3、RDD支持两种类型的操作
(1)转化操作:由一个RDD生成一个新的RDD。
(2)行动操作:对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统中。
Tips:区别两个操作的方法是观察两者的返回值类型,转化操作返回的是RDD,而行动操作返回的是其他数据类型。
转载地址:http://iopin.baihongyu.com/