想象一下,我有两个奴隶和一个主人。以前我在所有从属节点中复制并粘贴了相同的数据。
JavaPairRDD<IntWritable, VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class,
VectorWritable.class);
这里inputpath不是HDFS路径,而是每个从属节点可以访问的本地路径。但现在我正在考虑一种情况,每个奴隶都有部分数据,我想使用相同的代码,而无需安装/使用HDFS。但问题是在运行相同的代码后,程序运行没有任何错误,但不会产生任何结果。因为
我的问题是,在这种新情况下,如何在没有任何第三方程序的情况下运行我的程序?
答案 0 :(得分:1)
你做不到。如果你想运行Spark
没有安装/使用HDFS
(或其他分布式存储),您必须在每个节点上提供完整的数据副本,包括驱动程序。显然,它在实践中并不是非常有用的东西。