Spark独立群集文件访问

时间:2020-06-06 20:22:14

标签: apache-spark

我正在研究在组织中使用Spark。 一种选择是将其用作独立群集。 似乎很明显-除了我对此有很多疑问-在创建主服务器和一些从属服务器时,Spark将负责在集群成员上创建执行程序来操纵数据。 我的问题与节点如何访问要处理的文件有关。由于没有HDFS可以处理,因此是否需要授予文件的每个节点的访问权限?例如,NFS共享它或通过其他任何方式共享(复制到每个节点?)。 节点访问文件后,集群将决定如何处理文件的哪一部分,因为没有HDFS块可将数据划分到其中。 对此,我们将不胜感激。

胡安

1 个答案:

答案 0 :(得分:0)

由于没有HDFS可以处理,因此我是否需要授予访问权限 该文件的节点?

是的。不过,建议不要在PoC之外使用已命名的选项(NFS,本地FS)。

一旦节点有权访问文件,集群如何决定哪个 要处理的文件的一部分,因为没有HDFS块来划分 数据输入。

这与文件格式有关(您要使用可拆分格式)。使用可拆分格式,不同的执行者将能够并行读取和处理文件的不同部分。