想象一下,我有一个100 MM记录的文件,我想用猪来争论它。 我没有集群,但出于生产率原因,我仍然希望使用PIG。我可以在一台机器上使用PIG,还是性能不佳?
Pig会在单个机器中模拟MR作业,还是使用自我后端引擎来执行该过程?
答案 0 :(得分:2)
Hadoop处理100MM记录的单机肯定不会给你带来性能。
对于开发/测试目的,您可以使用具有少量/适量数据的单台机器,但不能用于生产
当您向群集添加更多节点时,Hadoop会线性扩展它的性能
单机也可以作为集群
PIG可以在local
和mapreduce
两种模式下运行
在本地模式下没有hadoop守护进程和hdfs
在mapreduce中,您的pig脚本将转换为MR Jobs,然后执行。
希望它有所帮助!