应用错误收集

时间：2014-01-17 14:14:38

标签： hadoop apache-pig

我是Hadoop和Pig的新手。

我已经设置了3个节点的Hadoop集群。我编写了一个Pig脚本，它通常读取数据并在其上执行聚合函数。

当我执行带有3600万条记录的4.8G文件时，猪在51分钟内输出。

当我执行带有7200万条记录的9.6G文件时，猪脚本崩溃，Hadoop发出以下错误。

无法从支持的错误重新创建异常：AttemptID：attempt_1389348682901_0050_m_000005_3信息：容器被ApplicationMaster杀死。
作业失败，hadoop不会返回任何错误消息

我正在使用Hadoop 2.2.0和Pig 0.12.0。

我的节点配置

Master：2个CPU，2 GB RAM Slave1：2个CPU，2 GB RAM Slave2：1个CPU，2 GB RAM

你可以就此提出建议吗？

答案 0 :(得分：0)

与猪一起尝试之后。我搬到了Hive。

我在使用Pig时观察到的内容：

我在HDFS上传文件并将其加载到Pig中。所以猪再次加载该文件。我正在处理文件两次。

对于我的情况，Hive适合。我正在HDFS上传文件并在Hive中加载该文件。这需要几毫秒。因为Hive可以无缝地使用HDFS文件。因此无需在Hive表中再次加载数据。这节省了很多时间。

这两个组件都很好，对我来说Hive适合。

感谢您的所有时间和建议。