我有一个使用Dataframes的Spark代码,它是使用Spark 1.6.1开发的,其中Dataframes是sql包的一部分。
现在项目已转移到Spark 2.1.0,并且Dataframes不再可用。
如Spark网站所述:Dataframes are Datasets of rows
。所以现在惯例是使用数据集。
我以前的代码看起来像这样:
List<Row> normalizeDataset = ...//Some function
DataFrame df = sqlContext.createDataFrame(normalizeDataset, schema);
是否有任何干净的约定将Dataframe的实例化移动到数据集中 - 是否有一个干净而快速的方法来迁移它并将以下代码片段放入Spark 2或者我需要重新访问我的整个项目?