来自Kafka的等待Spark Streaming处理的记录会发生什么?

时间:2016-12-27 08:42:26

标签: apache-spark apache-kafka spark-streaming

我正在调整我的spark-streaming + kafka流程序。有时我会遇到异常,例如无法在HDFS中找到spark文件或无法计算spark执行器中的拆分。根据互联网上的一些博客或答案,由于数据堆积在接收器中,这些可能是一个不够的内存问题。但我已将SparkStreaming StorageLevel设置为StorageLevel.MEMORY_AND_DISK_SER。我认为接收器应该将最新的批次保留到磁盘存储中,而不是在内存不足时丢弃最旧的批次rdd。

如果有数据堆积,接收器内存会发生什么变化?或者为什么StorageLevel.MEMORY_AND_DISK_SER不起作用?

0 个答案:

没有答案