加载一个花了2分钟在Spark-shell上运行的数据帧在Zeppelin中永远消失

时间:2016-08-30 06:39:02

标签: emr amazon-emr

使用emr-5.0.0

在Spark-shell上加载花费2分钟的Dataframe将永远占据Zeppelin,运行单节点Master

2 个答案:

答案 0 :(得分:0)

虽然Spark-Shell能够在以前的版本硬件(m1-medium)上运行我的查询,但Zeppelin需要内存优化的硬件(r3.2xlarge),以便在相同的数据上实际运行相同的查询!

答案 1 :(得分:0)

http://mail-archives.apache.org/mod_mbox/incubator-zeppelin-users/201505.mbox/%3CCAD7JkQGRTbk4k6_d=wJrfCPEmXSJMpeN=jZOuxMVdUcH-RfO1w@mail.gmail.com%3E

显然,在各种上下文之间运行查询时,创建和运行任务的方式有所不同。如果您粘贴代码,也许我们可以看到差异。

我可以告诉你,当你运行火花外壳时,与火花提交相比,上下文的设置方式略有不同。