应用错误收集

上的Apache Spark Temp文件大小

时间：2019-05-22 12:42:10

标签： apache-spark apache-kafka

我有一个设置，其中来自Apache Kafka集群的传入数据由Apache Spark流作业处理。

版本信息：- 卡夫卡= 0.8.x Spark版本= 2.3.1

最近，当Kafka集群的容量增加（通过添加新节点）时，我们突然发现spark集群的磁盘使用量呈指数级增长（大部分空间被spark临时文件占用）

我不确定这些是否相关，是否需要一些指针来解决/调试它们。

为预防起见，我们增加了火花簇的磁盘空间，以避免“设备上没有剩余空间”错误。

0 个答案:

没有答案