Question

答案与上面帖子中给出的答案不同

我收到一条读取错误

pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'

当我尝试使用Spark 2.1.0读取此类拼花文件时

data = spark.read.parquet('/myhdfs/location/')

我已经通过Hue WebPortal查看了impala表，检查文件和表是否为空。另外，我存储在类似目录中的其他文件绝对可以读取。作为记录，文件名包含连字符，但不包含下划线或句号/句点。

有什么想法吗？

Answer 1

事实证明我收到此错误，因为目录结构有另一个层次。以下是我所需要的；

data = spark.read.parquet('/myhdfs/location/anotherlevel/')