应用错误收集

Spark SQL表分区找不到文件

时间：2018-03-01 20:47:00

标签： apache-spark apache-spark-sql

我有一个用于运行Spark SQL应用程序的spark集群。我正在尝试表分区的Spark SQL功能。当我提取数据时，我收到一个文件未找到异常，说明文件X不存在，该文件与我正在摄取的数据有关。这种行为只发生在表的某些特定字段中，对于其他字段，我能够成功插入数据并稍后查询。另一个观察是，如果我关闭远程工作人员，摄取适用于任何字段。我使用Spark 2.2，独立模式。我没有适当的分布式文件系统，我在摄取完成后手动同步文件。任何人都知道为什么会出现这种行为？

1 个答案:

答案 0 :(得分：0)

这似乎是因为你没有HDFS。如果在工作节点执行任务时有HDFS，则可以使用这些文件。因为你没有HDFS，当任务被传递给工作者节点时，他们没有看到他们应该从哪里读取数据。

我想说你应该使用HDFS或安装NFS，这样无论工作节点在哪里，所有节点都可以访问相同的文件。

我希望这会有所帮助。