为什么Spark会强调架构,内存和存储的解耦?

时间:2018-08-13 11:00:04

标签: apache-spark rdd

在Spark的所有文献中,我屡次提到过类似下面引述的内容。以及将架构与存储解耦。

  

为HPC环境编写的工具通常无法从较低级别的存储模型中解耦内存中的数据模型。

这种去耦的重要性是什么?是为了微服务的好处还是可插拔性?

1 个答案:

答案 0 :(得分:0)

书中引号后面有一个示例。但是无论如何,Spark与微服务无关。

这本书说,Spark读取的存储可以在许多商用硬件机器之间分开。这是通过Hadoop兼容文件系统(无论是HDFS,S3还是其他)来启用的。与仅了解UNIX文件系统层的其他HPC系统相比,Hadoop在不同类型的存储上提供了更加一致的API。

对于内存存储,Spark确实具有可插入的序列化器。

对于磁盘存储,Spark(通过Hadoop)可以以包含自我描述的模式的格式存储数据,该模式可根据请求读取,而不是预定义并在外部存储在例如数据库中。

与本书所讨论的HPC系统相比,其他与Hadoop相关的工具可以读取Spark可以读取的相同文件,因此您不必局限于只能在该HPC环境下使用的一种专有格式,因此可以将其解耦