如何将Java API中的DataFrame迁移到Spark 2的数据集?

时间:2017-05-03 11:52:37

标签: java apache-spark apache-spark-sql

我有一个使用Dataframes的Spark代码,它是使用Spark 1.6.1开发的,其中Dataframes是sql包的一部分。

现在项目已转移到Spark 2.1.0,并且Dataframes不再可用。 如Spark网站所述:Dataframes are Datasets of rows。所以现在惯例是使用数据集。

我以前的代码看起来像这样:

List<Row> normalizeDataset = ...//Some function 
DataFrame df =  sqlContext.createDataFrame(normalizeDataset, schema); 

是否有任何干净的约定将Dataframe的实例化移动到数据集中 - 是否有一个干净而快速的方法来迁移它并将以下代码片段放入Spark 2或者我需要重新访问我的整个项目?

0 个答案:

没有答案