应用错误收集

我正在调整我的spark-streaming + kafka流程序。有时我会遇到异常，例如无法在HDFS中找到spark文件或无法计算spark执行器中的拆分。根据互联网上的一些博客或答案，由于数据堆积在接收器中，这些可能是一个不够的内存问题。但我已将SparkStreaming StorageLevel设置为StorageLevel.MEMORY_AND_DISK_SER。我认为接收器应该将最新的批次保留到磁盘存储中，而不是在内存不足时丢弃最旧的批次rdd。

如果有数据堆积，接收器内存会发生什么变化？或者为什么StorageLevel.MEMORY_AND_DISK_SER不起作用？

来自Kafka的等待Spark Streaming处理的记录会发生什么？

0 个答案: