我正在使用EMR在10 TB数据集上运行Spark作业。我正在使用Spark历史记录服务器来监视其进度。但是,当日志变得非常大时,火花历史记录服务器和EMR UI都将停止更新。我的EMR作业仍在运行还是也停止了工作?
此外,当火花历史记录服务器停止崩溃时,我所有的EC2实例都从> 75%的CPU利用率变为0%的利用率(它们随后又增加回<75%),并且EMR控制台显示了0个保留的容器并且所有内存已释放(它们也会在之后恢复正常)。
我的EMR工作发生了什么事?当日志变得很大时,有什么方法可以保持Spark历史记录服务器正常工作吗?
谢谢。
答案 0 :(得分:1)
是的,由于大量的日志历史记录,可能会发生这种情况,您可以尝试安排/设置自动删除。
要清除历史记录日志,您可以设置以下属性以启用spark-defaults.conf
文件中的设置自动清除,然后重新启动服务器
spark.history.fs.cleaner.enabled true
spark.history.fs.cleaner.maxAge 12h
spark.history.fs.cleaner.interval 1h
答案 1 :(得分:0)
将所有日志外部化到S3存储桶中
如果您感兴趣的话,还没有其他提示: