当我从源df.write.orc("/path/to/output.orc")
创建ORC格式的'文件'时,我可以使用spark.read.orc("/path/to/output.orc")
之类的东西阅读它。
但是,当文件由结构化流作业创建或附加时,我将无法读取文件并遇到以下消息:
org.apache.spark.sql.AnalysisException: Unable to infer schema for ORC at . It must be specified manually;
但是,当我使用以下语法读取文件时,它工作正常:spark.read.orc("/path/to/output.orc/*")
。
这一切都发生在HDFS上。 Locallt似乎不是问题。有什么想法吗?