将Spark SQL数据集作为基于RDD的作业使用

时间:2018-01-14 11:09:04

标签: java apache-spark apache-spark-sql

Spark数据框有toRDD()方法,但我不明白它是如何有用的。我们可以通过将转换后的源数据集处理为RDD而不是创建和启动DataStreamWriter来启动SQL流作业吗?

1 个答案:

答案 0 :(得分:1)

Dataset为批处理和流处理提供统一的API,并非每种方法都适用于流数据集。如果仔细搜索,您会发现其他方法无法用于流式数据集(例如describe)。

  

我们可以通过将转换后的源数据集处理为RDD而不是创建和启动DataStreamWriter来启动SQL流作业吗?

我们做不到。从结构化流式传输开始,保持结构化流式传输。不允许转换为RDD。