Spark数据框有toRDD()
方法,但我不明白它是如何有用的。我们可以通过将转换后的源数据集处理为RDD而不是创建和启动DataStreamWriter来启动SQL流作业吗?
答案 0 :(得分:1)
Dataset
为批处理和流处理提供统一的API,并非每种方法都适用于流数据集。如果仔细搜索,您会发现其他方法无法用于流式数据集(例如describe
)。
我们可以通过将转换后的源数据集处理为RDD而不是创建和启动DataStreamWriter来启动SQL流作业吗?
我们做不到。从结构化流式传输开始,保持结构化流式传输。不允许转换为RDD。