我有一个存储在服务器中的文件。我希望在运行spark时将文件指向Hadoop集群。我所拥有的是我可以将spark上下文指向hadoop集群,但是现在它指向集群时无法在Spark中访问数据。我有本地存储的数据,所以为了让我访问数据,我必须在本地指出它。但是,这会导致很多内存错误。我希望做的是将Spark指向集群,但同时访问我本地存储的数据。请告诉我如何做到这一点。
答案 0 :(得分:1)
Spark(在Hadoop上)无法读取本地存储的文件。记住spark是在多台机器上运行的分布式系统,因此无法直接读取其中一个节点(localhost除外)上的数据。
你应该把文件放在HDFS上并从那里读取火花。
要在本地访问它,您应该使用hadoop fs -get <hdfs filepath>
或hadoop fs -cat <hdfs filepath>
命令。