PIGLatin是否支持Parquet文件的谓词下推

时间:2015-10-27 06:25:08

标签: hadoop apache-pig parquet

我正在为我的数据集评估基于Hadoop的存储选项。这是当前的设置:

  • Thrift序列化对象,数据大小为每天1TB(使用GZIP压缩)
  • 主要通过PIG脚本和一些临时MR作业访问数据
  • 对于任何给定的运行,大多数PIG脚本都会获取一个日历日的数据,并且只能从Thrift对象访问一小部分列

我打算评估

的存储选项
  • 存储效率(所需存储空间减少量)
  • 使用PIG进行检索优化

我遇到了RC,ORC和Parquet。通过一些搜索,我可以确认PIG14以后它可以使用ORC执行列修剪,分区修剪和谓词下推,但我无法找到任何明确的链接来解释PIG是否可以对Parquet文件执行相同的操作。我遇到https://issues.apache.org/jira/browse/PIG-4092,但是在这个JIRA的两个链接中,一个抛出404而另一个说“空存储库”。

任何人都可以告诉我PIG是否可以为Parquet执行谓词下推?

1 个答案:

答案 0 :(得分:0)

不,它不能。它显然被认为将来会实施,但尚无迹象。

我建议现在坚持使用ORC,似乎猪有更好的支持。