Spark独立集群在保存后读取镶木地板文件

时间:2016-12-23 09:22:15

标签: scala apache-spark dataframe apache-spark-sql

我是一个双节点火花独立群集,我正在尝试阅读一些我刚刚保存的镶木地板文件,但我发现文件未被发现异常。

检查位置,看起来所有镶木地板文件都是在我的独立群集中的一个节点上创建的。

现在的问题是,读取镶木地板文件后,它说无法找到xasdad.part文件。

我设法加载它的唯一方法是将独立的spark群集缩小到一个节点。

我的问题是如何在我的独立群集中运行多个节点时加载我的镶木地板文件?

1 个答案:

答案 0 :(得分:2)

您必须将文件放在一个shard目录中,该目录可以被具有相同路径的所有spark节点访问。否则,使用spark与Hadoop HDFS:分布式文件系统。