RDD和传统的关系数据库系统之间有什么区别

时间:2018-12-07 02:45:18

标签: apache-spark relational-database rdd rdbms

我是新手,我了解SQL,但是想知道RDD(弹性分布式数据集)和关系数据库之间的区别,例如体系结构级别和访问级别。谢谢。

1 个答案:

答案 0 :(得分:0)

RDD(弹性分布式数据集)是Spark使用的内存中数据结构。它是不可变的数据结构。可以将其视为,spark以特定的结构将数据加载到内存中,该结构称为RDD。一旦您的火花作业停止,就没有RDD。

数据库是存储系统。您可以存储数据并在以后查询。

我希望这可以澄清。还有一件事-Spark可以从文件系统或数据库加载数据并创建RDD。文件系统和数据库是存储数据的两个地方。一旦数据被火花加载到内存中。 spark使用名为RDD的数据结构来存储和处理它。