猪在一台机器上

时间:2015-04-06 02:48:26

标签: hadoop apache-pig etl

想象一下,我有一个100 MM记录的文件,我想用猪来争论它。 我没有集群,但出于生产率原因,我仍然希望使用PIG。我可以在一台机器上使用PIG,还是性能不佳?

Pig会在单个机器中模拟MR作业,还是使用自我后端引擎来执行该过程?

1 个答案:

答案 0 :(得分:2)

Hadoop处理100MM记录的单机肯定不会给你带来性能。 对于开发/测试目的,您可以使用具有少量/适量数据的单台机器,但不能用于生产 当您向群集添加更多节点时,Hadoop会线性扩展它的性能 单机也可以作为集群 PIG可以在localmapreduce两种模式下运行 在本地模式下没有hadoop守护进程和hdfs 在mapreduce中,您的pig脚本将转换为MR Jobs,然后执行。

希望它有所帮助!