我目前遇到的问题是火花散发的时间越长,内存使用率就越高。结果,我的火花工作死了!
Spark Streaming应用程序基本上每15秒就会将记录发送到Kafka,进行解析并写回Kafka(在另一个主题上)。 Spark Standalone具有以下规范:
Total Workers: 10
Cores: 80
Total Memory: 303.8 GB
我的spark配置如下:
--executor-cores 1
--executor-memory 2g
--driver-memory 2g
--conf "spark.cores.max=60"
正在消耗的记录为〜100k-200k。处理时间约为12-19秒。
正如我在第一段中提到的那样,我怀疑这是内存泄漏问题。但是有人可以向我解释为什么会这样吗?我可能会丢失某些东西(很有可能!)。