我有带有镶木地板数据的Hive外部表。这里没有使用压缩。我正在使用spark作业将数据(镶木地板文件)写入HDFS目录。但是当我尝试从表中选择数据时,我得到低于错误/警告并且输出不会出现。 我确信这是一个常见的问题。请让我知道如何克服这个问题?
Hive - 1.2.1000.2.5.0.0-1245 hdp - 2.5.0.0-1245 spark版本1.6.2
2017年6月1日下午5:04:27警告:org.apache.parquet.CorruptStatistics:忽略统计信息,因为无法解析created_by(请参阅PARQUET-251):parquet-mr version 1.6.0 org.apache.parquet.VersionParser $ VersionParseException:无法解析created_by:parquet-mr版本1.6.0使用格式:(。+)version((。))?(build?(。)) 在org.apache.parquet.VersionParser.parse(VersionParser.java:112) 在org.apache.parquet.CorruptStatistics.shouldIgnoreStatistics(CorruptStatistics.java:60) 在org.apache.parquet.format.converter.ParquetMetadataConverter.fromParquetStatistics(ParquetMetadataConverter.java:263)
似乎因为在火花作业中使用的拼花作家版本和用于在Hive中阅读的版本是不同的,它们之间存在差距。在这里,我们可以在Hive中看到用于阅读的版本是parquet-mr版本1.6.0
现在,如果有人可以告诉我如何更改spark作业中使用的镶木地板编写器的版本或如何更改Hive镶木地板阅读器版本,我可以尝试解决此问题。
答案 0 :(得分:-1)
你看到的例外是无害的。