Question

让我们考虑以下代码：

val streamingContext = new StreamingContext(sparkConf, Seconds(frequency))
val stream = streamingContext.textFileStream("/abc/def")

如果一个1 TB的文件突然出现在这个目录中，会发生什么？它是如何处理的，或者它是如何失败的？

在相关的说明中，如果Spark无法跟上传入数据的速度会发生什么？

Answer 1

Spark Streaming接收数据流并将数据分成批次，然后由Spark引擎处理，以批量生成最终结果流。

这应该不会影响处理它会将数据保留在队列中进行处理，如果处理是长时间队列会增加

检查点将处理故障转移机制

注意：在极端情况下如果无法处理输入请求，它将失败，具体取决于您的群集处理能力。