如何在Spark Streaming中累积数据帧?

时间:2018-07-31 19:42:06

标签: apache-spark dataframe apache-spark-sql spark-streaming

我知道Spark Streaming会生成一批RDD,但是我想累积一个大的Dataframe,并随每批更新(通过将新的Dataframe追加到末尾)。

是否可以像这样访问所有历史Stream数据?

我已经看过mapWithState(),但是还没有看到它专门累积数据帧。

1 个答案:

答案 0 :(得分:1)

虽然数据帧是作为后台的RDD批量实现的,但数据帧却作为非离散的无限行流呈现给应用程序。没有“数据包的批次”,而是“ RDD的批次”。

目前尚不清楚您想要什么历史数据。