无法推断用于Impala加载的Parquet的架构

时间:2020-03-24 09:44:52

标签: apache-spark apache-spark-sql parquet impala

有一个Spark应用程序,可将Parquet文件中的数据加载到Impala表中。最近它开始失败,并没有任何代码更改的错误:

Exception in thread "main" org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:185)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:185)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.execution.datasources.DataSource.getOrInferFileFormatSchema(DataSource.scala:184)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:373)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:641)

数据源是稳定的,因为数据已从它加载到Impala中,而其他应用程序没有任何问题,并且源目录本身也不为空(此类问题的常见原因)。目标表本身为空。 代码没有改变(正如我之前提到的),并且可以很好地加载到其他表中。 那么,这种行为的原因可能是什么?

0 个答案:

没有答案