应用错误收集

我们正在运行一个简单的spark应用程序，该应用程序在给定数据帧的每一列上执行多个count（）函数。在完成几项工作之后，该应用程序似乎“卡住了”，看起来它仍在运行（执行程序上有活动任务），但实际上没有任何反应（持续3个小时，直到我将其杀死）。在Ganglia中，我们看到所有节点的CPU使用率均低于5％。当我们再次执行此应用程序（不做任何更改）时，它将在10分钟后完成。

更多详细信息：

我们在20个节点的EMR集群上运行spark。
数据框包含约2000万行。

有什么想法吗？

Spark在EMR集群上看起来像“僵尸”

0 个答案: