标签: apache-spark dataframe apache-spark-sql spark-streaming
我知道Spark Streaming会生成一批RDD,但是我想累积一个大的Dataframe,并随每批更新(通过将新的Dataframe追加到末尾)。
是否可以像这样访问所有历史Stream数据?
我已经看过mapWithState(),但是还没有看到它专门累积数据帧。
答案 0 :(得分:1)
虽然数据帧是作为后台的RDD批量实现的,但数据帧却作为非离散的无限行流呈现给应用程序。没有“数据包的批次”,而是“ RDD的批次”。
目前尚不清楚您想要什么历史数据。