将文件指向hadoop集群

时间:2015-11-25 04:05:04

标签: scala apache-spark bigdata

我有一个存储在服务器中的文件。我希望在运行spark时将文件指向Hadoop集群。我所拥有的是我可以将spark上下文指向hadoop集群,但是现在它指向集群时无法在Spark中访问数据。我有本地存储的数据,所以为了让我访问数据,我必须在本地指出它。但是,这会导致很多内存错误。我希望做的是将Spark指向集群,但同时访问我本地存储的数据。请告诉我如何做到这一点。

1 个答案:

答案 0 :(得分:1)

Spark(在Hadoop上)无法读取本地存储的文件。记住spark是在多台机器上运行的分布式系统,因此无法直接读取其中一个节点(localhost除外)上的数据。

你应该把文件放在HDFS上并从那里读取火花。

要在本地访问它,您应该使用hadoop fs -get <hdfs filepath>hadoop fs -cat <hdfs filepath>命令。