如何在Spark中创建可变数据框并保持流式行附加到它?

时间:2018-08-23 10:51:11

标签: apache-spark spark-streaming

我有一个Spark流媒体源可以读取数据。我想从此源读取数据,并不断追加到可变的DataFrame上,以便在流的结尾(停止流式传输时),我将在Spark内存中有一个DataFrame以便进行进一步的操作。

  

如何实现?

注意:我知道,Spark中的所有内容都是延迟加载,因此无法在Spark流媒体之外进行任何操作。但是,我的目标是在流传输时“缓存” Spark内存中的数据,然后在流传输后使用此缓存的数据帧。

0 个答案:

没有答案