上的Apache Spark Temp文件大小

时间:2019-05-22 12:42:10

标签: apache-spark apache-kafka

我有一个设置,其中来自Apache Kafka集群的传入数据由Apache Spark流作业处理。

版本信息:- 卡夫卡= 0.8.x Spark版本= 2.3.1

最近,当Kafka集群的容量增加(通过添加新节点)时,我们突然发现spark集群的磁盘使用量呈指数级增长(大部分空间被spark临时文件占用)

我不确定这些是否相关,是否需要一些指针来解决/调试它们。

为预防起见,我们增加了火花簇的磁盘空间,以避免“设备上没有剩余空间”错误。

0 个答案:

没有答案