我有以下代码:
dataset.writeStream().foreach(new ForeachWriter<Row>() {
some function
}).start().awaitTermination();
并且我使用idfModel fit来获取数据集:
IDFModel idfModel = idf.fit(featurizedData);
然后,我收到以下错误:
org.apache.spark.sql.AnalysisException:具有流源的查询 必须使用writeStream.start();;
执行
我注意到在idf.fit()期间,它需要进入rdd级别以实现拟合。那么如何使用writeStream.start()实现它?
我正在使用Spark 2.3 +。