使用spark-submit时如何查看更多实时日志?

时间:2018-04-19 13:52:25

标签: apache-spark logging pyspark submit

我正在使用' spark-submit'使用配置文件和包选项,它需要很长时间才能运行..

如何开启'更多日志记录(实时),以便可以看到瓶颈在哪里(例如,我可能在没有访问权限的情况下向特定服务器发出请求等)。

理想情况下,我希望看到所有内容 - 从哪些库加载到哪个请求以及正在生成哪个服务器。

感谢。

2 个答案:

答案 0 :(得分:0)

在大多数情况下,您可以在Spark UI上查看当前正在运行的作业的所有相关信息(通常,此服务可在您的驱动程序的端口4040处访问)或(如果您的系统有一个){ {3}}

答案 1 :(得分:0)

在YARN上使用Spark时,可以使用以下参数。

--driver-java-options "-Dlog4j.error=true" --verbose

或者

您可以随时执行以下操作从YARN

获取日志

使用以下命令格式查看正在运行的应用程序的特定类型的所有日志:

yarn logs -applicationId <Application ID> -log_files <log_file_type>

例如,要仅查看stderr错误日志:

yarn logs -applicationId <Application ID> -log_files stderr

-logFiles选项还支持Java正则表达式,因此以下格式将返回所有类型的日志文件:

yarn logs -applicationId <Application ID> -log_files .*