标签: apache-spark pyspark amazon-emr
我们正在运行一个简单的spark应用程序,该应用程序在给定数据帧的每一列上执行多个count()函数。 在完成几项工作之后,该应用程序似乎“卡住了”,看起来它仍在运行(执行程序上有活动任务),但实际上没有任何反应(持续3个小时,直到我将其杀死)。 在Ganglia中,我们看到所有节点的CPU使用率均低于5%。 当我们再次执行此应用程序(不做任何更改)时,它将在10分钟后完成。
更多详细信息:
有什么想法吗?