我想通过spark代码
将前5行写入hdfs文件sc.textFile("hdfs://localhost:8020/user/hadoop/data-master/retail_db/products/part-00000").map( rec => ( rec.split(",")(4).toDouble, rec )).sortByKey(false).map(_._2)
这里我们可以使用saveAsTextFile API,但它是一个动作,而我们需要通过转换来限制行。
答案 0 :(得分:0)
您可以使用limit
功能获取第一行的选择
def limit(n: Int): Dataset[T]
通过前n行返回一个新的数据集。区别 这个函数和head之间的关系是head是一个动作并返回 一个数组(通过触发查询执行),而limit返回一个新数组 数据集。
yourDF.limit(5) // takes the first 5 rows
如果您想将前5行作为数组,那么您可以使用take
函数
yourDF.take(5)
希望这有帮助!