我是新手,我了解SQL,但是想知道RDD(弹性分布式数据集)和关系数据库之间的区别,例如体系结构级别和访问级别。谢谢。
答案 0 :(得分:0)
RDD(弹性分布式数据集)是Spark使用的内存中数据结构。它是不可变的数据结构。可以将其视为,spark以特定的结构将数据加载到内存中,该结构称为RDD。一旦您的火花作业停止,就没有RDD。
数据库是存储系统。您可以存储数据并在以后查询。
我希望这可以澄清。还有一件事-Spark可以从文件系统或数据库加载数据并创建RDD。文件系统和数据库是存储数据的两个地方。一旦数据被火花加载到内存中。 spark使用名为RDD的数据结构来存储和处理它。