为什么我的PySpark程序如下所示

时间:2015-12-14 13:50:56

标签: python apache-spark pyspark rdd

我编写了一个PySpark程序,当我运行它时,会输出大量输出,然后在屏幕上突然挂起以下语句

[Stage 11:===================================>                   (65 + 1) / 100]

它根本没有进展。这个程序实际上已经结束了还是其他什么问题?

2 个答案:

答案 0 :(得分:1)

当你使用Apache Spark时很常见,可能会有一些问题或例外情况在终端中没有显示,但是为了调试这个问题,你可以阅读运行时发生的事情,但取决于关于Apache Spark当前的安装(这就是我没有发布链接的原因),您可以找到有关此文档的更多信息。 Monitoring and Logging in Apache Spark

您必须在描述列中搜索 WebUI ,您可以点击 +详细信息(以获取您需要点击的内容)您将调试作业,如果继续,您会发现越来越多的信息。

Failing Job Details

答案 1 :(得分:0)

我在悬挂方面遇到了类似的问题。 最初,我的火花配置是

`

conf = SparkConf()
conf.setAppName('AppName') \
        .setMaster('local[*]')

`

产生悬挂,类似于你的悬挂。 [Stage 3:=============================> (1 + 0) / 2]

在我的配置中更改主人的URI后,我不再遇到挂起。 `

conf = SparkConf()
conf.setAppName('App Name') \
    .setMaster('spark://hostname-of-master:7077')

`

主人的网址通常位于localhost:8080