Apache Pig对输入数据大小有任何限制吗?

时间:2012-09-27 09:20:49

标签: hadoop mapreduce apache-pig

使用TeraBytes数据时,以及典型的数据过滤问题,Apache PIG是正确的选择吗?或者让自定义MapReduce代码完成工作更好。

1 个答案:

答案 0 :(得分:3)

Apache PIG不作为存储层。 PIG是一种脚本语言,可以简化可以在Hadoop上运行的代码的创建。 PIG脚本被编译成一组Hadoop MapReduce作业,这些作业提交给Hadoop,其运行方式与任何其他MapReduce作业相同。

Hadoop执行数据存储而不是PIG。

回答你的问题:不,输入数据的大小没有限制。只要输入数据可以由PIG加载函数解析,并且可以通过Hadoop InputFormats拆分。

PIG脚本比标准Java Hadoop作业更容易,更快速地编写,并且PIG具有许多聪明的优化,例如多查询执行,这可以使您的复杂查询更快地执行。