长期运行的Spark Streaming应用程序

时间:2018-10-07 15:05:42

标签: apache-spark spark-streaming amazon-emr

我有一个长期运行的Spark Streaming应用程序(纱线客户端模式,EMR),该应用程序使用来自Kafka的数据。我可以看到一段时间后,由于“空间不足”问题(/ var / log / hadoop-yarn / containers已满),应用程序停止运行

谁可以帮助解决此问题?

1 个答案:

答案 0 :(得分:0)

默认情况下,yarn会将日志聚合到hdfs中,仅用于完成的作业。 但是,如果您的生产中有长期运行的作业,则也应该为正在运行的作业配置日志聚合。

您可以通过在yarn-site.xml中为此属性设置适当的属性来实现

  

yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds

https://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

还要确保将日志级别设置为在生产时发出警告。