强烈建议你试试无所不能的chatGPT，快点击我

《Spark快速大数据分析》总结--（3）

阅读量：3740 次

发布时间：2019-05-22

本文共 236 字，大约阅读时间需要 1 分钟。

第3章 RDD编程

3.1 RDD基础

1、Spark中的RDD是一个不可变的分布式对象集合。

2、两种方式创建RDD：读取一个外部数据集、在驱动器程序里分发驱动器程序中的对象集合。

3、RDD支持两种类型的操作

（1）转化操作：由一个RDD生成一个新的RDD。

（2）行动操作：对RDD计算出一个结果，并把结果返回到驱动器程序中，或把结果存储到外部存储系统中。

Tips：区别两个操作的方法是观察两者的返回值类型，转化操作返回的是RDD，而行动操作返回的是其他数据类型。

转载地址：http://iopin.baihongyu.com/

你可能感兴趣的文章

Matplotlib绘图工具

机器学习之Knn算法

Mockito单元测试简述

GUAVA的常用方法汇总

装饰器和门面设计模式介绍

Jackson多层泛型深度嵌套导致的反序列化问题

创建型模式——克隆模式

JVM关闭和Hook钩子

线程中断处理

消息队列积压问题处理

并行流使用注意事项

泛型擦除机制及相关问题

Jackson日期反序列化时区问题

《设计模式》

单例设计模式

面试题集锦（一）

Calendar类方法——编写万年历的两种方式

File类的使用——遍历所有文件及子文件以及遍历删除

内存流的使用——基本使用

RandomAccessFile 类的使用——基本使用

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-15 14:57:20 当前IP: 3.15.144.56 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我