答案与上面帖子中给出的答案不同
我收到一条读取错误
pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'
当我尝试使用Spark 2.1.0读取此类拼花文件时
data = spark.read.parquet('/myhdfs/location/')
我已经通过Hue WebPortal查看了impala表,检查文件和表是否为空。另外,我存储在类似目录中的其他文件绝对可以读取。作为记录,文件名包含连字符,但不包含下划线或句号/句点。
因此,以下帖子中的答案均不适用Unable to infer schema when loading Parquet file
有什么想法吗?
答案 0 :(得分:0)
事实证明我收到此错误,因为目录结构有另一个层次。以下是我所需要的;
data = spark.read.parquet('/myhdfs/location/anotherlevel/')