Spark,请使用本地硬盘而不是hadoop

时间:2019-06-12 14:58:35

标签: apache-spark hadoop

我已经按照https://www.linode.com/docs/databases/hadoop/install-configure-run-spark-on-top-of-hadoop-yarn-cluster/

的说明运行了hadoop和spark

但是,作为一个初学者,我发现在本地计算机上运行简短的示例更加容易。

例如,对于代码airportsNameAndCityNames.saveAsTextFile("out/airports_by_latitude.text")

/home/foo/out/airports_by_latitude.text相比,hdfs://node-master:9000/user/hadoop/out/airports_by_latitude.text要容易得多,而我目前不知道如何与编辑器一起查看。

所以我的问题是,运行spark时是否可以使用本地存储(不是hadoop)

我发现如果我在下面注释掉HADOOP_HOME(有效地使HADOOP_CONF_DIR无效),它似乎在本地存储上运行(而不是hadoop),但是想知道是否还有更优雅的方法。

export SPARK_HOME=/usr/local/spark
export LD_LIBRARY_PATH=/usr/local/hadoop/lib/native:$LD_LIBRARY_PATH
export PATH=$SPARK_HOME/bin:$PATH

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

1 个答案:

答案 0 :(得分:0)

一种非常简单的方法是显式指定要读取的文件系统:

sc.textFile("file:///home/foo/out/airports_by_latitude.text")