如何迭代数据集的行

时间:2021-04-18 09:37:43

标签: apache-spark

我想遍历数据集的行(逐行)并获取特定列的值,如何实现? 我试过:

oldDF.foreach((ForeachFunction<Row>) row -> System.out.println(row));

这是正确的方法吗?否则如何实现它以及如何访问一行的列的值?

谢谢?

1 个答案:

答案 0 :(得分:0)

如果您只想输出特定列的值,您实际上可以对这个特定列使用 select 查询,然后在控制台上像这样显示结果:

oldDF.select("_2").show() // show the 2nd column's values of oldDF

如果您想将此列的元素放在 Array 类型的 Rows 中,您可以将 show() 方法与 collect() 或 {{3}像这样:

oldDF.select("_2").collect() // store the 2nd column's values of oldDF