阻止Spark执行程序日志进行gzip压缩

时间:2017-02-07 00:09:37

标签: apache-spark emr amazon-emr

我有一个Spark工作,有一些很长的运行任务。当任务开始时,我可以转到执行程序选项卡,查看我的所有执行程序及其任务。我可以单击stderr链接查看那些有助于监控的任务的日志。但是,几个小时后,stderr链接停止工作。如果点击它,就会得到java.lang.Exception: Cannot find this log on the local disk.。我挖了一下,问题似乎是某些东西决定gzip日志。也就是说,我仍然可以通过ssh-ing到工作节点并查看正确的目录(例如/mnt/var/log/hadoop-yarn/containers/application_1486407288470_0005/container_1486407288470_0005_01_000002/stderr.gz)来手动查找日志。令人讨厌的是,因为我现在无法从UI监控我的工作。此外,文件非常小,因此压缩似乎没有帮助(40k未压缩)。似乎有很多事情可能导致这种情况发生:纱线,logroller cron作业,我的Yarn / Spark发行版中的log4j配置,AWS(因为EMR拉链日志并将它们保存到S3)等等。我希望有人可以指出我正确的方向,所以我不必搜索大量的文档。

我在emr-5.3.0使用AWS EMR而没有任何自定义引导步骤。

1 个答案:

答案 0 :(得分:0)

刚遇到类似的问题。我没有搜索如何阻止gzip发生,但你可以使用hadoop接口访问日志。

在左侧菜单中的工具>下;本地日志

然后浏览以找到您感兴趣的日志。

对于我的情况,来自gui的gzip /node/containerlogs/container_1498033803655_0037_01_000001/hadoop/stderr.gz/?start=-4096 并使用本地日志菜单,它在 /logs/containers/application_1498033803655_0037/container_1498033803655_0037_01_000001/stderr.gz

希望有所帮助