我正在尝试使用sparkAPI Java的.select()
函数选择几列,但数据集会从我正在使用的镶木地板文件中获取所有可用字段。
List<Column> selectCols = new ArrayList<>();
selectCols.add("id");
selectCols.add("name");
dataset.filter(col("name")
.isin('john','mary')).
select(JavaConversions.asScalaBuffer(selectCols).seq()));
但是上面这个方法给了我parque中所有可用的cols。如何只将选择列数据导入数据集。