如何访问Spark历史记录服务器

时间:2020-08-04 17:06:40

标签: apache-spark apache-spark-sql sparks-pakage-management

我正在小型数据集上运行我的spark应用程序,仅用于功能测试。但是我也想看看正在创建多少执行程序,以及如何对数据进行分区。为此,我尝试访问spark UI应用程序,但是访问spark UI应用程序的问题是,一旦应用程序完成,连接就会丢失。

如何访问Spark历史记录服务器以监视过去的Spark应用程序。我正在使用intellij IDE运行spark应用程序,但找不到访问该服务器的选项。

2 个答案:

答案 0 :(得分:0)

如何在程序末尾添加一个睡眠调用以延迟其完成?

答案 1 :(得分:0)

从Apache Spark文档中, 端点安装在/api/v1.上,例如,对于历史记录服务器,通常可以在http://<server-url>:18080/api/v1上访问,对于运行中的应用程序,可以在http://localhost:4040/api/v1上访问。

开始: ./sbin/start-history-server.sh

默认情况下,这会在http://<server-url>:18080创建一个Web界面,列出未完成和已完成的应用程序和尝试。

spark作业本身必须配置为记录事件,并将它们记录到相同的共享可写目录中。例如,如果服务器配置了日志目录hdfs://namenode/shared/spark-logs,则客户端选项将是:

请参阅https://spark.apache.org/docs/latest/monitoring.html中的“监视和检测”,以获取更多Spark版本特定的选项详细信息。