但是,作为一个初学者,我发现在本地计算机上运行简短的示例更加容易。
例如,对于代码airportsNameAndCityNames.saveAsTextFile("out/airports_by_latitude.text")
与/home/foo/out/airports_by_latitude.text
相比,hdfs://node-master:9000/user/hadoop/out/airports_by_latitude.text
要容易得多,而我目前不知道如何与编辑器一起查看。
所以我的问题是,运行spark时是否可以使用本地存储(不是hadoop)
我发现如果我在下面注释掉HADOOP_HOME
(有效地使HADOOP_CONF_DIR无效),它似乎在本地存储上运行(而不是hadoop),但是想知道是否还有更优雅的方法。
export SPARK_HOME=/usr/local/spark
export LD_LIBRARY_PATH=/usr/local/hadoop/lib/native:$LD_LIBRARY_PATH
export PATH=$SPARK_HOME/bin:$PATH
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
答案 0 :(得分:0)
一种非常简单的方法是显式指定要读取的文件系统:
sc.textFile("file:///home/foo/out/airports_by_latitude.text")