使用TeraBytes数据时,以及典型的数据过滤问题,Apache PIG是正确的选择吗?或者让自定义MapReduce代码完成工作更好。
答案 0 :(得分:3)
Apache PIG不作为存储层。 PIG是一种脚本语言,可以简化可以在Hadoop上运行的代码的创建。 PIG脚本被编译成一组Hadoop MapReduce作业,这些作业提交给Hadoop,其运行方式与任何其他MapReduce作业相同。
Hadoop执行数据存储而不是PIG。
回答你的问题:不,输入数据的大小没有限制。只要输入数据可以由PIG加载函数解析,并且可以通过Hadoop InputFormats拆分。
PIG脚本比标准Java Hadoop作业更容易,更快速地编写,并且PIG具有许多聪明的优化,例如多查询执行,这可以使您的复杂查询更快地执行。