我是Hadoop和Pig的新手。
我已经设置了3个节点的Hadoop集群。我编写了一个Pig脚本,它通常读取数据并在其上执行聚合函数。
当我执行带有3600万条记录的4.8G文件时,猪在51分钟内输出。
当我执行带有7200万条记录的9.6G文件时,猪脚本崩溃,Hadoop发出以下错误。
我正在使用Hadoop 2.2.0和Pig 0.12.0。
我的节点配置
Master:2个CPU,2 GB RAM Slave1:2个CPU,2 GB RAM Slave2:1个CPU,2 GB RAM
你可以就此提出建议吗?
答案 0 :(得分:0)
与猪一起尝试之后。我搬到了Hive。
我在使用Pig时观察到的内容:
我在HDFS上传文件并将其加载到Pig中。所以猪再次加载该文件。我正在处理文件两次。
对于我的情况,Hive适合。我正在HDFS上传文件并在Hive中加载该文件。这需要几毫秒。因为Hive可以无缝地使用HDFS文件。因此无需在Hive表中再次加载数据。这节省了很多时间。
这两个组件都很好,对我来说Hive适合。
感谢您的所有时间和建议。