CorruptStatistics - 使用Parquet文件时的警告消息

时间:2017-06-19 23:31:30

标签: hadoop hive parquet

当我在Hortonworks上的Hive中执行查询时,我收到了大量这些消息。

  

INFO:org.apache.parquet.CorruptStatistics:忽略统计信息   因为此文件是在1.8.0之前创建的,请参阅PARQUET-251

  1. 如何解决这个问题?
  2. 如果它没有修复,那么由于我正确地得到了结果,这会产生什么影响呢?

1 个答案:

答案 0 :(得分:0)

  1. 您可以通过使用Parquet生产商重新编写文件来解决此问题,例如: Hive,即使用更新的镶木地板库。然后它将使用正确的统计信息填充文件。
  2. 您从此Parquet生成的结果是正确的。该警告仅通知您在处理此文件时它无法在计算(图形)中使用所有优化。以前的镶木地板版本中有一个计算统计数据的错误。现在已修复此问题,但要获得正确的统计信息(仅用于查询优化),您需要使用较新版本重写所有文件。文件本身的数据不受此错误的影响。