Question

我想通过spark代码

将前5行写入hdfs文件

sc.textFile("hdfs://localhost:8020/user/hadoop/data-master/retail_db/products/part-00000").map( rec => ( rec.split(",")(4).toDouble, rec )).sortByKey(false).map(_._2)

这里我们可以使用saveAsTextFile API，但它是一个动作，而我们需要通过转换来限制行。

Answer 1

您可以使用limit功能获取第一行的选择

def limit(n: Int): Dataset[T]

通过前n行返回一个新的数据集。区别这个函数和head之间的关系是head是一个动作并返回一个数组（通过触发查询执行），而limit返回一个新数组数据集。

yourDF.limit(5)  // takes the first 5 rows

如果您想将前5行作为数组，那么您可以使用take函数

yourDF.take(5)

希望这有帮助！

通过spark

1 个答案: