标签: apache-spark apache-kafka
我有一个设置,其中来自Apache Kafka集群的传入数据由Apache Spark流作业处理。
版本信息:- 卡夫卡= 0.8.x Spark版本= 2.3.1
最近,当Kafka集群的容量增加(通过添加新节点)时,我们突然发现spark集群的磁盘使用量呈指数级增长(大部分空间被spark临时文件占用)
我不确定这些是否相关,是否需要一些指针来解决/调试它们。
为预防起见,我们增加了火花簇的磁盘空间,以避免“设备上没有剩余空间”错误。