应用错误收集

如何在Spark Streaming中累积数据帧？

时间：2018-07-31 19:42:06

标签： apache-spark dataframe apache-spark-sql spark-streaming

我知道Spark Streaming会生成一批RDD，但是我想累积一个大的Dataframe，并随每批更新（通过将新的Dataframe追加到末尾）。

是否可以像这样访问所有历史Stream数据？

我已经看过mapWithState（），但是还没有看到它专门累积数据帧。

1 个答案:

答案 0 :(得分：1)

虽然数据帧是作为后台的RDD批量实现的，但数据帧却作为非离散的无限行流呈现给应用程序。没有“数据包的批次”，而是“ RDD的批次”。

目前尚不清楚您想要什么历史数据。