博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《Spark快速大数据分析》总结--(3)
阅读量:3740 次
发布时间:2019-05-22

本文共 236 字,大约阅读时间需要 1 分钟。

第3章 RDD编程

3.1 RDD基础

1、Spark中的RDD是一个不可变的分布式对象集合。

2、两种方式创建RDD:读取一个外部数据集、在驱动器程序里分发驱动器程序中的对象集合。

3、RDD支持两种类型的操作

(1)转化操作:由一个RDD生成一个新的RDD。

(2)行动操作:对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统中。

Tips:区别两个操作的方法是观察两者的返回值类型,转化操作返回的是RDD,而行动操作返回的是其他数据类型。

 

转载地址:http://iopin.baihongyu.com/

你可能感兴趣的文章
Matplotlib绘图工具
查看>>
机器学习之Knn算法
查看>>
Mockito单元测试简述
查看>>
GUAVA的常用方法汇总
查看>>
装饰器和门面设计模式介绍
查看>>
Jackson多层泛型深度嵌套导致的反序列化问题
查看>>
创建型模式——克隆模式
查看>>
JVM关闭和Hook钩子
查看>>
线程中断处理
查看>>
消息队列积压问题处理
查看>>
并行流使用注意事项
查看>>
泛型擦除机制及相关问题
查看>>
Jackson日期反序列化时区问题
查看>>
《设计模式》
查看>>
单例设计模式
查看>>
面试题集锦(一)
查看>>
Calendar类方法——编写万年历的两种方式
查看>>
File类的使用——遍历所有文件及子文件以及遍历删除
查看>>
内存流的使用——基本使用
查看>>
RandomAccessFile 类的使用——基本使用
查看>>