Sagemaker PySpark:Kernel Dead

时间:2018-06-07 02:17:12

标签: pyspark jupyter amazon-sagemaker

我按照说明here设置了EMR群集和SageMaker笔记本。直到最后一步,我没有任何错误。

当我在Sagemaker中打开一个新笔记本时,我收到消息:

The kernel appears to have died. It will restart automatically.

然后:

        The kernel has died, and the automatic restart has failed.
        It is possible the kernel cannot be restarted. 
        If you are not able to restart the kernel, you will still be able to save the 
notebook, but running code will no longer work until the notebook is reopened.

只有当我使用pyspark / Sparkmagic内核时才会发生这种情况。使用Conda内核或任何其他内核打开的笔记本工作正常。

我的EMR群集设置与说明完全相同,并附加了一条规则:

[
  {
    "Classification": "spark",
    "Properties": {
      "maximizeResourceAllocation": "true"
    }
  }
]

我很感激为什么会发生这种情况以及如何调试/修复任何指针。

P.S。:我过去成功地完成了这项任务,没有任何问题。当我今天尝试重新做这件事时,我遇到了这个问题。我尝试重新创建EMR集群和Sagemaker笔记本电脑,但这并没有帮助。

1 个答案:

答案 0 :(得分:5)

感谢您使用Amazon SageMaker。

这里的问题是Pandas 0.23.0更改了名为DataError的核心类的位置,而SparkMagic尚未更新为要求来自正确名称空间的DataError。

此问题的解决方法是使用pip install pandas==0.22.0在SageMaker Notebook实例中降级Pandas版本。

您可以在此开放的github问题https://github.com/jupyter-incubator/sparkmagic/issues/458中获得更多信息。

让我们知道是否还有其他方法可以帮助您。

谢谢,
内拉姆