当我尝试读取一个应该包含Parquet格式的文件的文件夹时,如果有数据,则一切正常,如果没有数据,第一行就会出错,并且后续代码无法执行
val hdfsData: DataFrame = spark.sqlContext.read.parquet(hdfsPath)
hdfsData.rdd.isEmpty() match ....
....
错误:org.apache.spark.sql.AnalysisException:无法推断Parquet的架构。必须手动指定。
处理这种情况的正确方法是什么。
答案 0 :(得分:1)
遇到了同样的问题,我通过一个简单的Try / Success / Failure进行了处理
val acc:DataFrame = session.createDataset(List("foo", "bar")).toDF()
val tryDf:Try[DataFrame] =
Try(
session.read.parquet("s3://path-to-bucket/path-to-folder-with-no-parquet-files-under-it/")
)
val resultDf:DataFrame = tryDf match {
case Success(df) => acc.union(df)
case Failure(f) => {
println(s"@@ handled ${ f }") // => @@ handled org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
acc
}
}
println(s"resultDf.count ${ resultDf.count }") // => 2```