Spark RDD在Spark中的地位和作用如何?

来源：千锋教育

发布人：刘老师

时间： 2020-04-18 15:25:00 1587194700

Spark RDD的核心原理

1、Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。

2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同Work节点上，从而让RDD中的数据可以被并行操作。(分布式数据集)

3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建;有时也可以通过RDD的本地创建转换而来。

4、传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。

RDD最重要的特性就是，提供了容错性，可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。这一切对使用者是透明的。RDD的lineage特性。

5、RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘。(弹性)

一、为什么会有Spark?

因为传统的并行计算模型无法有效的解决迭代计算(iterative)和交互式计算(interactive)而Spark的使命便是解决这两个问题，这也是他存在的价值和理由.

二、Spark如何解决迭代计算?

其主要实现思想就是RDD,把所有计算的数据保存在分布式的内存中.迭代计算通常情况下都是对同一个数据集做反复的迭代计算，数据在内存中将大大提升IO操作.这也是Spark涉及的核心:内存计算.

三、Spark如何实现交互式计算?

因为Spark是用scala语言实现的,Spark和scala能够紧密的集成,所以Spark可以完美的运用scala的解释器,使得其中的scala可以向操作本地集合对象一样轻松操作分布式数据集.

四、Spark和RDD的关系?

可以理解为:RDD是一种具有容错性基于内存的集群计算抽象方法,Spark则是这个抽象方法的实现.

想要了解更多Java相关的知识，欢迎加入千锋Java学习交流群，这里有很多跟你一样想学Java的小伙伴，还有java大牛，加群了解(群号：318970371 进群输入暗号“领资料”)这里还有很多免费Java学习资料、Java入门视频教程，更有免费体验课、直播课等福利等你领取。

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

Java学习路线之Servlet基本概念及执行流程

千锋Java培训分享算法之插入排序

猜你喜欢LIKE

javasubstring截取字符串的用法？

什么是单体架构？单体架构有什么优缺点

springioc底层实现原理详解

java中volatile关键字有什么作用

相关推荐HOT

更多>>

java两个日期比较相差多少天

在Java中，可以使用`java.time`包下的类来比较两个日期之间相差的天数。以下是一个示例代码：importjava.time.LocalDate;importjava.time.tempo...详情>>

2023-06-27 17:19:00

find命令查找文件

"find"命令是在Unix、Linux和类似系统中使用的一个非常强大的命令，用于在文件系统中查找文件和目录。它可以根据各种条件进行搜索，并提供了灵...详情>>

2023-06-16 14:00:30

如何添加Java环境变量

要添加Java环境变量，请按照以下步骤进行操作：1.打开计算机的控制面板。2.点击"系统和安全"(Windows10及更高版本)或"系统"(Windows7和较早版本...详情>>

2023-06-08 09:31:10

随机函数rand怎么使用

rand是一个C++的函数，用于产生一个随机数。以下是使用rand的方法：1.头文件：需要包含stdlib.h或cstdlib头文件以使用rand函数。2.使用rand()函...详情>>

2023-04-20 15:47:10

什么是面向对象编程？面向对象有什么特性

面向对象编程(Object-Oriented Programming，OOP)是一种常用的编程范式，它将数据和操作数据的方法组合成一个单独的实体，称为“对象”，并且对...详情>>

2023-03-17 15:30:11

Java培训问答 更多>>

新

Java行业疑惑解答：Java的内存管理是如何工作的?

新

java script是什么？为什么要学java script

新

java和大数据哪个好？未来哪个职业发展更好

新

java培训班多久能学会？培训周期大概多久

新

java script和java的区别有哪些？如何区分

新

java script的数据类型主要有哪些？怎样学的更快

新

c语言与java区别在哪里？去培训机构学哪个比较好

Java面试题库 更多>>

华为外包java面试题-Java实现单链表的逆序

涨薪指数

Java程序员面试题

涨薪指数

Java面试题及答案

涨薪指数

华为外包java面试题-Java实现单链表的逆序

Java程序员面试题

Java面试题及答案

什么是线程的上下文切换？

如何撤销已经推送(push)到远端仓库的提交(commit)信息？

你了解哪些加密算法？

Java师资团队 更多>>

14天品质课程免费学

10年以上业内强师带你蜕变精英

提交领取