Question

我已经按照https://www.linode.com/docs/databases/hadoop/install-configure-run-spark-on-top-of-hadoop-yarn-cluster/

的说明运行了hadoop和spark

但是，作为一个初学者，我发现在本地计算机上运行简短的示例更加容易。

例如，对于代码airportsNameAndCityNames.saveAsTextFile("out/airports_by_latitude.text")

与/home/foo/out/airports_by_latitude.text相比，hdfs://node-master:9000/user/hadoop/out/airports_by_latitude.text要容易得多，而我目前不知道如何与编辑器一起查看。

所以我的问题是，运行spark时是否可以使用本地存储（不是hadoop）

我发现如果我在下面注释掉HADOOP_HOME（有效地使HADOOP_CONF_DIR无效），它似乎在本地存储上运行（而不是hadoop），但是想知道是否还有更优雅的方法。

export SPARK_HOME=/usr/local/spark
export LD_LIBRARY_PATH=/usr/local/hadoop/lib/native:$LD_LIBRARY_PATH
export PATH=$SPARK_HOME/bin:$PATH

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

Answer 1

一种非常简单的方法是显式指定要读取的文件系统：

sc.textFile("file:///home/foo/out/airports_by_latitude.text")

Spark，请使用本地硬盘而不是hadoop

1 个答案: