应用错误收集

长期运行的Spark Streaming应用程序

时间：2018-10-07 15:05:42

标签： apache-spark spark-streaming amazon-emr

我有一个长期运行的Spark Streaming应用程序（纱线客户端模式，EMR），该应用程序使用来自Kafka的数据。我可以看到一段时间后，由于“空间不足”问题（/ var / log / hadoop-yarn / containers已满），应用程序停止运行

谁可以帮助解决此问题？

1 个答案:

答案 0 :(得分：0)

默认情况下，yarn会将日志聚合到hdfs中，仅用于完成的作业。但是，如果您的生产中有长期运行的作业，则也应该为正在运行的作业配置日志聚合。

您可以通过在yarn-site.xml中为此属性设置适当的属性来实现

yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds

https://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

还要确保将日志级别设置为在生产时发出警告。