Question

想象一下，我有两个奴隶和一个主人。以前我在所有从属节点中复制并粘贴了相同的数据。

JavaPairRDD<IntWritable, VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class,
            VectorWritable.class);

这里inputpath不是HDFS路径，而是每个从属节点可以访问的本地路径。但现在我正在考虑一种情况，每个奴隶都有部分数据，我想使用相同的代码，而无需安装/使用HDFS。但问题是在运行相同的代码后，程序运行没有任何错误，但不会产生任何结果。因为

我的问题是，在这种新情况下，如何在没有任何第三方程序的情况下运行我的程序？

Answer 1

你做不到。如果你想运行Spark

没有安装/使用HDFS

（或其他分布式存储），您必须在每个节点上提供完整的数据副本，包括驱动程序。显然，它在实践中并不是非常有用的东西。