从非hdfs源

时间:2017-01-24 07:59:21

标签: hadoop apache-spark apache-spark-sql parquet

我有一个在纱线群集上运行的火花代码,并使用数据库库将csv转换为镶木地板。

当csv源是hdfs时,它工作正常。但是当csv源是非hdfs时(通常就是这种情况),我遇到了这个异常。 它不应该发生,因为相同的代码适用于hdfs csv源。

问题的完整链接: https://issues.apache.org/jira/browse/SPARK-19344

1 个答案:

答案 0 :(得分:0)

如评论中所述。

当文件位于驱动程序节点上但节点无法访问时,读取将失败。

当使用读取输入文件(例如,火花2.0中的spark.read)时,所有执行程序节点都应该访问这些文件(例如,当文件在HDFS上时,cassandra等)