结构化流传输后,只能由文件夹中的通配符读取ORC文件

时间:2019-06-07 08:49:02

标签: apache-spark spark-structured-streaming orc

当我从源df.write.orc("/path/to/output.orc")创建ORC格式的'文件'时,我可以使用spark.read.orc("/path/to/output.orc")之类的东西阅读它。

但是,当文件由结构化流作业创建或附加时,我将无法读取文件并遇到以下消息:

org.apache.spark.sql.AnalysisException: Unable to infer schema for ORC at . It must be specified manually;

但是,当我使用以下语法读取文件时,它工作正常:spark.read.orc("/path/to/output.orc/*")

这一切都发生在HDFS上。 Locallt似乎不是问题。有什么想法吗?

0 个答案:

没有答案