我可以在每个从属节点中使用分段文件运行Spark吗?

时间:2018-01-28 13:04:26

标签: hadoop apache-spark hdfs

想象一下,我有两个奴隶和一个主人。以前我在所有从属节点中复制并粘贴了相同的数据。

JavaPairRDD<IntWritable, VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class,
            VectorWritable.class);

这里inputpath不是HDFS路径,而是每个从属节点可以访问的本地路径。但现在我正在考虑一种情况,每个奴隶都有部分数据,我想使用相同的代码,而无需安装/使用HDFS。但问题是在运行相同的代码后,程序运行没有任何错误,但不会产生任何结果。因为

  1. 主人在&#34; inputPath&#34;。
  2. 中没有数据
  3. 奴隶在&#34; inputPath&#34;中有部分数据,但是主人没有将任何数据分发给他们以分配工作量。
  4. 我的问题是,在这种新情况下,如何在没有任何第三方程序的情况下运行我的程序?

1 个答案:

答案 0 :(得分:1)

你做不到。如果你想运行Spark

  

没有安装/使用HDFS

(或其他分布式存储),您必须在每个节点上提供完整的数据副本,包括驱动程序。显然,它在实践中并不是非常有用的东西。