我正在为我的数据集评估基于Hadoop的存储选项。这是当前的设置:
我打算评估
的存储选项我遇到了RC,ORC和Parquet。通过一些搜索,我可以确认PIG14以后它可以使用ORC执行列修剪,分区修剪和谓词下推,但我无法找到任何明确的链接来解释PIG是否可以对Parquet文件执行相同的操作。我遇到https://issues.apache.org/jira/browse/PIG-4092,但是在这个JIRA的两个链接中,一个抛出404而另一个说“空存储库”。
任何人都可以告诉我PIG是否可以为Parquet执行谓词下推?
答案 0 :(得分:0)
不,它不能。它显然被认为将来会实施,但尚无迹象。
我建议现在坚持使用ORC,似乎猪有更好的支持。