Question

有一个Spark应用程序，可将Parquet文件中的数据加载到Impala表中。最近它开始失败，并没有任何代码更改的错误：

Exception in thread "main" org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:185)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:185)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.execution.datasources.DataSource.getOrInferFileFormatSchema(DataSource.scala:184)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:373)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:641)

数据源是稳定的，因为数据已从它加载到Impala中，而其他应用程序没有任何问题，并且源目录本身也不为空（此类问题的常见原因）。目标表本身为空。代码没有改变（正如我之前提到的），并且可以很好地加载到其他表中。那么，这种行为的原因可能是什么？

无法推断用于Impala加载的Parquet的架构

0 个答案: