如果Spark-streaming应用程序遇到巨大文件会怎么样?

时间:2017-05-17 06:53:27

标签: scala apache-spark spark-streaming

让我们考虑以下代码:

val streamingContext = new StreamingContext(sparkConf, Seconds(frequency))
val stream = streamingContext.textFileStream("/abc/def")

如果一个1 TB的文件突然出现在这个目录中,会发生什么?它是如何处理的,或者它是如何失败的?

在相关的说明中,如果Spark无法跟上传入数据的速度会发生什么?

1 个答案:

答案 0 :(得分:1)

Spark Streaming接收数据流并将数据分成批次,然后由Spark引擎处理,以批量生成最终结果流。

这应该不会影响处理它会将数据保留在队列中进行处理,如果处理是长时间队列会增加

检查点将处理故障转移机制

注意:在极端情况下如果无法处理输入请求,它将失败,具体取决于您的群集处理能力。

enter image description here