应用错误收集

Apache Pig对输入数据大小有任何限制吗？

时间：2012-09-27 09:20:49

标签： hadoop mapreduce apache-pig

使用TeraBytes数据时，以及典型的数据过滤问题，Apache PIG是正确的选择吗？或者让自定义MapReduce代码完成工作更好。

1 个答案:

答案 0 :(得分：3)

Apache PIG不作为存储层。 PIG是一种脚本语言，可以简化可以在Hadoop上运行的代码的创建。 PIG脚本被编译成一组Hadoop MapReduce作业，这些作业提交给Hadoop，其运行方式与任何其他MapReduce作业相同。

Hadoop执行数据存储而不是PIG。

回答你的问题：不，输入数据的大小没有限制。只要输入数据可以由PIG加载函数解析，并且可以通过Hadoop InputFormats拆分。

PIG脚本比标准Java Hadoop作业更容易，更快速地编写，并且PIG具有许多聪明的优化，例如多查询执行，这可以使您的复杂查询更快地执行。