我正在使用' spark-submit'使用配置文件和包选项,它需要很长时间才能运行..
如何开启'更多日志记录(实时),以便可以看到瓶颈在哪里(例如,我可能在没有访问权限的情况下向特定服务器发出请求等)。
理想情况下,我希望看到所有内容 - 从哪些库加载到哪个请求以及正在生成哪个服务器。
感谢。
答案 0 :(得分:0)
在大多数情况下,您可以在Spark UI上查看当前正在运行的作业的所有相关信息(通常,此服务可在您的驱动程序的端口4040处访问)或(如果您的系统有一个){ {3}}
答案 1 :(得分:0)
在YARN上使用Spark时,可以使用以下参数。
--driver-java-options "-Dlog4j.error=true" --verbose
或者
您可以随时执行以下操作从YARN
获取日志使用以下命令格式查看正在运行的应用程序的特定类型的所有日志:
yarn logs -applicationId <Application ID> -log_files <log_file_type>
例如,要仅查看stderr错误日志:
yarn logs -applicationId <Application ID> -log_files stderr
-logFiles选项还支持Java正则表达式,因此以下格式将返回所有类型的日志文件:
yarn logs -applicationId <Application ID> -log_files .*